OpenSCAD LLM Benchmark: Building the Pantheon | ModelRift Blog

Краткое содержание

В статье представлен сравнительный анализ нескольких AI-инструментов для кодинга, которым была поставлена задача создать модель Пантеона в OpenSCAD на основе предоставленных изображений. Целью было оценить способность LLM (больших языковых моделей) преобразовывать архитектурные референсы в параметрический CAD-код.

OpenSCAD оказался подходящим языком для генерации геометрии, благодаря компактному синтаксису и возможности инспектировать результаты.
Скорость работы не всегда коррелирует с качеством результата.
Визуальная обратная связь и итеративный процесс с участием человека значительно улучшают качество модели.

Почему Пантеон?

Пантеон выбран в качестве бенчмарка, поскольку он представляет собой задачу средней сложности для OpenSCAD. Он сочетает в себе элементы, хорошо подходящие для этого инструмента, такие как радиальная симметрия, повторяющиеся элементы и простые архитектурные формы, но при этом требует точности в передаче пропорций и деталей.

Почему OpenSCAD?

OpenSCAD является предпочтительным выбором, поскольку он позволяет описывать геометрию в виде текста, что упрощает взаимодействие с языковыми моделями. LLM может напрямую указывать параметры, такие как количество колонн или вычитание отверстия из купола, что делает код инспектируемым и легко редактируемым.

Prompt

Для бенчмарка использовался следующий prompt: <span>see two ref images and build .scad file with openscad implementation of pantheon. use openscad CLI to preview your work and iterate until you are happy with the result.</span>

Результаты

В статье представлены результаты шести различных AI-инструментов, включая Cursor, Codex, Claude Code, Google Antigravity и ModelRift. Каждый результат оценивался по качеству и скорости выполнения задачи.

Tool and model

В таблице представлены результаты шести различных AI-инструментов, включая Cursor, Codex, Claude Code, Google Antigravity и ModelRift. Каждый результат оценивался по качеству и скорости выполнения задачи.

Workflow Notes

Рабочий процесс играет важную роль в качестве результата. Codex Desktop предоставляет удобный интерфейс для просмотра изображений, загруженных в контекст LLM. Все протестированные системы успешно использовали OpenSCAD для рендеринга превью.

Google Antigravity 2.0 / Gemini 3.5 Flash High

Antigravity 2.0 с Gemini 3.5 Flash показал лучший автономный результат. Он использовал реальные размеры Пантеона и реализовал характерный узор кессонного потолка.

ModelRift / Gemini Flash 3.0

ModelRift с Gemini Flash 3.0, работающий в режиме "человек в цикле", показал лучший результат среди неавтономных систем. Визуальная обратная связь позволила более точно корректировать детали модели.

Codex 5.5 High

Codex 5.5 High создал наиболее детализированную модель, включая надпись на антаблементе. Однако, возникли проблемы с экспортом в STL, что снизило итоговую оценку.

Claude Sonnet

Claude Sonnet создал наиболее чистую модель в автономном режиме. Пропорции были сбалансированы, а основные архитектурные элементы хорошо сочетались друг с другом.

Cursor Composer

Cursor с Composer 2.5 показал самую высокую скорость, но качество результата было самым низким. Модель выглядела упрощенной и требовала значительной доработки.

Claude Opus

Claude Opus занял промежуточное положение между Cursor и Sonnet. Модель была более полной, чем у Cursor, но менее убедительной, чем у Sonnet.

Takeaways

OpenSCAD подтвердил свою пригодность в качестве целевого языка для генерации геометрии. LLM успешно использовали его для создания превью. Скорость не всегда является показателем качества. Визуализация и экспорт требуют отдельной проверки. Автономная генерация пока не подходит для задач, требующих высокой точности.

5/23/2026 modelrift.com