Claude 4 против всех. Я протестировал 9 AI-моделей в вайбкодинге (GPT, Gemini, DeepSeek)

Claude 4 против всех. Я протестировал 9 AI-моделей в вайбкодинге (GPT, Gemini, DeepSeek)

Краткий Обзор

В этом видео Олег Стефанов сравнивает новые модели Claude 4 (Sonnet и Opus) с другими топовыми моделями от конкурентов, а также с предыдущими версиями Claude, чтобы оценить улучшения в эффективности. Он тестирует их в задачах вайбкодинга, включая создание игр и приложений в один промпт, исправление багов и моделирование в Blender.

Основные выводы:

  • Claude 4 Sonnet и Opus показывают себя лидерами в большинстве тестов.
  • Claude 4 Opus демонстрирует наилучшие результаты в создании игр с нуля и генерации субтитров.
  • Claude 4 Sonnet хорошо справляется с моделированием в Blender.
  • GPT-4.1 и Gemini 2.5 Pro подходят для несложных задач, но часто испытывают трудности.
  • Claude 3.5 Haiku оказалась наименее полезной моделью для программирования.

Начало

Антропик выпустила новую версию своих моделей, Claude 4, в двух вариациях: Sonnet и Opus. По бенчмаркам, эти модели выглядят очень впечатляюще. В этом видео автор сравнивает эти версии в плане вайбкодинга не только между собой, но и с другими топовыми моделями от конкурентов, а также с предыдущими версиями Claude, чтобы понять, есть ли какое-то улучшение в эффективности. Автор попробует написать несколько приложений и игр в один промпт, пофиксить баги и даже сделать модельку в блендере.

Бенчмарки Claude 4

На сайте Antropic представлены бенчмарки, сравнивающие Claude 4 с лучшими моделями конкурентов. Sonnet 4 справляется с задачами кодинга на 10% чаще, чем предыдущая версия 3.7. Sonnet 4 обходит даже GPT-O3 и Opus 4, хотя Sonnet значительно дешевле этих моделей. Opus 4 обходит Sonnet по нескольким категориям.

Как будем тестить

Автор собирается тестировать модели в вайб-кодинге, создавая большие проекты в один промпт, не разбивая их на подзадачи. Это позволит проверить, насколько хорошо модели справляются с комплексными задачами.

Doom в браузере

Первая задача — запустить Doom в браузере. Это классический бенчмарк, который автор использовал для проверки многих моделей. Начнем с самой дешевой нейронки и будем двигаться по возрастанию цены.

Doom: Deepseek R1

DeepSeek R1 — самая дешевая нейронка по стоимости API. Для чистоты эксперимента автор отключает rules и пишет инструкции только в диалоге с агентом. DeepSeek быстро думает, но выдает код только в виде текста ответа и не понимает, что он может изменять файлы, запускать какие-то команды. DeepSeek ничего не знает об инструментах, поэтому получает минус в этой категории.

Doom: Claude 3.5 Haiku

Claude 3.5 Haiku — самая дешевая доступная модель от Claude на данный момент. Нейронка решила скачать готовый код классического дума плюс движок DOS для браузера и запустить это все в связке. После 10 минут приседания ничего так и не вышло, код дума не получилось скачать и нейронка просто отказывалась выполнять команды в терминале самостоятельно, хотя у нее был доступ к нему. Ставим минус в этой категории.

Doom: Gemini 2.5 Pro

Gemini 2.5 Pro — одна из самых топовых моделей по соотношению цена-качество на данный момент. Она более чем в два раза дешевле, чем модель Claude, но при этом по перформансу ведет себя довольно хорошо. Gemini сосредоточилась на поиске готовых решений запуска Doom'а. Она выкачивала файлы, разархивировала их, проверяла разные репозитории. В итоге она просто нашла готовые репозитории в WebDoom, скачала и запустила его успешно. Ставлю хитрый плюс для этой модели.

Doom: Gemini 2.5 Pro 06-05

Google выпустили обновление Gemini 2.5 Pro версия 06-05. Модель решила использовать шаблон конвас проекта, а потом переключилась на полную симуляцию DOS-системы в браузере. Успешно запустила эмулятор, но не смогла запустить внутри него Doom. За это я ставлю ей минус.

Doom: GPT-4.1

GPT 4.1 — недавно выпущенная модель от OpenAI, которая специализируется на таких задачах, как написание кода. Модель тоже избрала стратегию скачивания готового дума. Шла почти так же, как Gemini, 20 минут упорно ковыряла архивы в интернете, но в итоге запуталась в папках, погрязла в багах запуска сервера и не смогла показать какой-либо результат, похожий на игру. Ставлю минусик в этой категории.

Doom: Claude 3.7 Sonnet

Claude 3.7 — самая базированная модель для программирования. Модель решила использовать браузер не для тестирования готовой игры, а для поиска готового кода. Она зашла на сайт эмулятора системы DOS, перешла в его GitHub. Открыла гугл поиск, чекнула. Еще один репозиторий, переходя по файлам. Попыталась заюзать готовый движок JS-DOS, но застряла в багах и создала пару версий игры. Все они не работали. Выходит, что не справилась. Ставим минус.

Doom: Claude 4 Sonnet

Claude Sonnet 4. Сходу видно новую фичу, нейронка может вызывать инструменты внутри размышлений. Claude первый, кто решил написать Doom самостоятельно. Он последовал промпту и пошел искать примеры кода через мой MCP GetStack. Заюзал Three.JS шаблон. Погуглил документацию в Context 7. В результате игра всходу запустилась и заработала без ошибок. Но в ней была проблема с освещением. Клод сам это заметил через просмотр скриншота браузера и подправил свет в игре. Получается, игра реально была написана с нуля, с использованием всех предложенных нами инструментов. Плюсуем Sonnet.

Doom: o3

GPT-O3 — топовая модель, способная решать очень сложные задачи. Она больше чем в 3 раза дороже Claude Sonnet. Она решает заюзать шаблон Canvas, гуглит библиотеки, ищет JS, DOS в интернете. Думает, ищет и снова думает. В результате выдаёт один файл, думая, что на 120 строк. Обрывается связь. В плане денег это стоило мне 2,5 доллара за эти 120 строк кода. Слишком дорого и нет смысла продолжать работу. Предлагаю дисквалифицировать эту модель из эксперимента из-за слишком высокой цены. По думе порядок действий был точно такой же, как у Gemini. Модель заюзала шаблон конваса, затем решила запускать эмуляцию DOS. И на этом застряла навсегда. Ставлю минус в этом тесте.

Doom: Claude 4 Opus

Claude 4 Opus решает не юзать Three.JS шаблон. Он решил запилить Doom на чистом JS и конвасе, без фреймворков и библиотек. 5 минут спустя мы видим довольно стильный шутер с мини-картой и врагами. Не было ни одного бага или проблемы. Чисто один стартовый промпт и всё. Жирный плюс в этом тесте.

Doom: итоги

Подводятся итоги по созданию игры Doom в браузере.

Color Clash

Переходим ко второй задачке. Тут мы попробуем забелить еще одну игру для браузера с нуля, но на этот раз дадим ультраподробную документацию, которую я собрал, записав рекламу реальной игры в инстаграме и скормив это видео Gemini. И чуть-чуть изменил условия, добавив онлайн составляющую, чтобы соперником был второй игрок, а не искусственный интеллект.

Color Clash: Claude 3.5 Haiku

Claude 3.5 Haiku. Разработка игры завелась не сразу, так как первые пару попыток модель выдавала чисто примеры кода в тексте без реального редактирования файлов. Когда завелась и закончила разработку, то она как будто забыла про свой инструмент работы с терминалом и все команды просила выполнять у меня. В коде было миллион багов. После множества циклов правок игра так и не завелась. Ставлю минус в этом тесте.

Color Clash: Gemini 2.5 Pro

Gemini 2.5 Pro. Она заюзала шаблон Canvas. Написала базовые HTML, JS код и вдруг остановилась и решила спросить нас, нужно ли продолжать дальше реализовывать основную часть игры. Говорю я продолжай, пока не сделаешь все до конца. Модель больше не останавливается, завершает обработку, но на фронте видимо ошибки. Я закидываю ей, понимая, что она вообще не запускает сервер, который необходим для работы такой онлайн игры. Gemini понимает, что нужно написать сервер, которого нет. И тут он говорит, что не может сам менять и создавать файлы, как я и рассказывал в начале. То есть он забыл, какие инструменты у него есть. Просит меня сделать это, и окей, я создаю и запускаю сервак по его инструкциям. Баги пропадают, но игра все равно не работает. Правит, игра запускается, но юниты не стреляют. Далее Gemini что-то делал, но так и не смог пофиксить стрельбу, не вспомнил, что он сам умеет редактировать файлы. Приходилось применять фиксы руками. В общем, даю полбала за такую реализацию.

Color Clash: Gemini 2.5 Pro 06-05

Gemini новой версии 06-05. Она заюзала Canvas, два раза попыталась скачать библиотеку Playwright вместо использования просто MCP. Поправила несколько ошибок, но затем мы получили очень хороший результат. Механика работает без всяких лишних кнопок входа и логина. Юниты ставятся и стреляют. Плюс. Дизайн игры максимально приятный. Жирный плюс в этой категории.

Color Clash: GPT-4.1

GPT 4.1 Ситуация чуть более приятная, чем Gemini. Он запустил полурабочий продукт, я ему закинул ошибки, он поправил. В целом дизайн получился более приятным, но и стрельба юнитов заработала корректно. Ставлю плюс.

Color Clash: Claude 3.7 Sonnet

Claude 3.7 Sonnet. В разработке не возникало никаких проблем с инструментами или прерываниями на бесполезные вопросы. Но видно, что модель игнорирует MCP для работы с документациями и шаблонами, хотя в промте явно написано использовать их. Но игра была реализована, однако она не имела рабочее поле битвы. Работает только механика коннекта к одной игровой комнате. Поэтому, к сожалению, ставлю только я минус.

Color Clash: Claude 4 Sonnet

Четвертая версия Sonet. Сходу видно, что модель жестко следует промпту, проверяет существующие шаблоны проектов, гугли доку через Context 7 и система игровых комнат заработала сходу. После одного бага заработало все остальное. Я ставлю очень мощный плюс.

Color Clash: o3

О3. Он использовал шаблон конвас проекта, не запускал сам команда в терминале и просил меня это делать. Несколько раз заканчивал работу, получая версию, которая не имела ошибок, но и не работала должным образом. Не было понятно, как коннектиться игрокам, не было никакой синхронизации игровых полей у игроков. Спустя несколько фиксов игра начала работать более-менее нормально, но дизайн, синхронизация полей и оптимизация под браузер работали ультра ужасно. Игра просто начинала зависать через какое-то время. Я ставлю только полбалла за такое.

Color Clash: Claude 4 Opus

Claude 4 опус. Почти всё то же самое, что и с Sonnet. Следует инструкции. Один блокирующий баг при выставлении первого юнита, затем много багов с направлением стрельбы юнитов. В итоге направление не удалось пофиксить, но в целом игра работает. Так что пол балла.

Color Clash: итоги

Подводятся итоги по созданию игры Color Clash.

Аниматор схем

Для следующего теста я взял идею, которая является полезной лично для меня для создания моих YouTube видосов, как этот. Это генератор анимированных визуальных схем в стиле Miro. Идея следующая. Я подаю на вход некий текст, который я озвучиваю в видео. А приложение мне рисует анимацию, где появляются блоки, стрелки, надписи, которые как бы описывают идею озвученную в видео. В итоге должна быть возможность смотреть полученную анимацию, редактировать тайминг изменения состояния объектов, чтобы подстраивать скорость анимации под реальный текст. В качестве входного текста для генерации визуала я брал отрывок из своего предыдущего видео для MCP, где я рассказываю какие параметры придаются при взаимодействии с инструментом и нейронкой.

Аниматор схем: Claude 3.5 Haiku

Claude 3.5 Haiku. Опять забыл, что он может работать с терминалом сам. Просил меня выполнять команды, летела куча ошибок и он пытался их фиксить, но в итоге все равно ничего не завелось, проект не взлетел. Минус.

Аниматор схем: Gemini 2.5 Pro

Gemini. Google решил запилить сервер на Python и использовать Poetry для сборки и запуска проектов. Запутался в его командах и зависимостях, ничего не работало. Куча ошибок и сервер так в итоге и не залетел. Короче, минус.

Аниматор схем: Gemini 2.5 Pro 06-05

Gemini 06-05. On the usual canvas template. На этот раз использовал нормальный Playwright MCP, чтобы проверять работу в браузере. Но в итоге, спустя кучу изменений, диалог курсора стал слишком большим и его просто нельзя было технически продолжить. И мы оказались в тупике, так что это конец и минус в данной категории.

Аниматор схем: GPT-4.1

GPT 4.1. Он без особых проблем написал код системы, которая даже выдвала что-то типа результата. Но никакой схемы таймингов или ключевых кадров я не увидел в результате. Просто какой-то невнятный текст ответа от нейронки, выписанный в один блок HTML. В общем ставлю минус и идем дальше.

Аниматор схем: Claude 3.7 Sonnet

Claude 3.7 Sonnet. Отработал офигенно. Без багов сделал систему, которая работает так, как нужно, но с неточностями в расположении блоков. Тут нужно докручивать систему, чтобы сгодилась хоть для какого-то видео, но в целом норм. Так что плюс.

Аниматор схем: Claude 4 Sonnet

Четвертая версия Claude Sonnet. Тут он отработал ниже моих ожиданий. Спустя 40 минут и кучу багов, я вижу примерно такую же систему, как при разработке с klot3c. Ставлю плюсик с минусиком. Небольшой.

Аниматор схем: o3

O3. Он выкачал библиотеку Excalidraw для работы с графикой. Неплохо, я такого еще никогда не видел. Потом произошел разрыв в соединении с интернетом и диалог обнулился. Печально, но продолжим. В итоге ответ от нейронки в формате JSON структуры анимации возвращался, но графика не рисовалась, то есть по сути ничего не работает. За такое можно поставить только минус, к сожалению.

Аниматор схем: Claude 4 Opus

Opus. Спустя 15 минут генерации Opus просто ответил нам таймаутом и весь диалог испарился. Да, во время подготовки к видосу я тестил Opus и неоднократно получал такое же поведение. То есть это похоже на просто какой-то баг к Cloud Desktop. Из-за него пришлось объяснить еще раз, что мы до этого делали, ну и сразу попросить пофиксить баг. Затем, из-за нестабильного интернет-соединения, Claude диалог обнулился еще раз. И затем, спустя пару багов, я получил результат на уровне сонетов. Только в нем почему-то каждый кадр очищал все, что было до него. В целом, стрелки и блоки получились бессвязными. Ставлю плюс с минусиком.

Аниматор схем: итоги

Подводятся итоги по созданию аниматора схем.

Генератор субтитров

Попробуем завойкодить в один промпт еще одну полезную программу: автогенератор субтитров к видео. На вход подаем видео с голосом. Программа анализирует текст, создает субтитры, которые следуют за произнесенными словами. В этом тесте будем сосредоточены только на разработке бэкэнда, без каких-то визуальных составляющих. Будем дергать запросы из интерфейса Swagger. Для распознавания речи будем использовать модель Speech-to-Text от OpenAI. И важный момент. Задачи на обработку видео будут асинхронными, они будут находиться в какой-то табличке Task, содержать статусы там Failed, Finished, Processing, чтобы пользователь мог отслеживать результат обработки видео асинхронно, запрашивая статус задачи или создавая 10 новых сразу. И пользователя мы будем привязывать к авторизации через Google.

Генератор субтитров: Claude 3.5 Haiku

Claude 3.5 Haiku. Из-за короткого лимита ответа 1000 раз жму continue. Получаю вообще все существующие баги. Не хватает библиотек, не подтягиваются n в переменные, не работает авторизация, не обрабатывается видео. Ставлю минус.

Генератор субтитров: Gemini 2.5 Pro

Gemini. Начал довольно быстро кодить, но загнался с poetry конфигом, не смог сделать так, чтобы проект собрался и запускался без ошибок. В итоге минус. Не работает.

Генератор субтитров: Gemini 2.5 Pro 06-05

Gemini 06-05 Он взял Python template, пофиксил пару проблем на запуске, проблем с авторизацией не было, прогнал видос и в итоге получил сегодня результат. Субтитры на месте, все работает, кайф.

Генератор субтитров: GPT-4.1

GPT-4.1 запилил проект, поймал пару багов, но успешно исправился. Проект отработал, сгенерил видео, но в результате мы видим полный текст, написанный в одном титре, без смены по мере разговора. Ставлю за это пол балла.

Генератор субтитров: Claude 3.7 Sonnet

Вот она 3.7. Написал код и пофиксил микробак. Получил от 3.7 то, что вообще не ожидал такой хорошей модели, что в результирующем видео были субтитры типа «реальные субтитры должны быть здесь». Хотя в моей доке четко написано, что я хочу увидеть в результате. Пишу, доработай как надо, перезапускаю, генерирую и получаю результат точно такой же как в gpt 4.1. Полбала. Слабовато.

Генератор субтитров: Claude 4 Sonnet

Четвертая версия klotz.net. Накидал код, поймал пару багов, пофиксил, рестартанул и вот оно. Наконец-то. Результат, который мне реально нужен. Есть небольшое отставание текста от голоса, но в целом механизм именно такой, который я и хотел. Кайф. Плюс за это задание.

Генератор субтитров: o3

O3. Сначала O3 взял хитрую тактику. Он начал смотреть соседние папки, читать уже существующий код других моделей. Я подумал, окей, пусть попробуют списать. Но все пошло не по плану, и он начал просто редактировать код к лоду. Так что пришлось отменить и запустить в отдельном контексте, где нет других папок с существующим кодом. И в итоге получился сомнительный результат. Здесь весь текст транскрипции складывается в один титр. Полбала.

Генератор субтитров: Claude 4 Opus

и опус здесь я получаю баг с логином пользователя через google ну это базовая ошибка прошу поправить перезапускаю генерирую и ура результат еще лучше чем при работе с sonnet 4 текст идеально синхронизируется с голосом нет слишком больших блоков текста все работает в общем кайф ура

Генератор субтитров: итоги

Подводятся итоги по созданию генератора субтитров.

Фикс багов

Последний прогерский тест в этом видео это фикс багов. Мы будем править ошибки на фронте. У меня есть небольшая заготовка проекта в виде mirror slash paint в браузере. Пользователь может тут рисовать, располагать фигуры, вставлять текст, в общем работать с некой графикой. Меня в целом устраивает, как это работает, но несколько моментов, которые портят впечатление. Во-первых, пластик не стирает, а рисует черным цветом. Во-вторых, выбор цвета, заливки и обводки фигур, по сути, не функционирует корректно. И в-третьих, существует система слоев, как в фотошопе, на них можно что-то рисовать, скрывать, но нельзя перемещать слои вверх и вниз, чтобы настраивать задний и передний план. Попробуем это все исправить.

Фикс багов: Claude 3.5 Haiku

Claude 3.5 Haiku. Он довольно быстро закончил фиксинг. Тестируем. Ластик вообще не работает. Цвет фигур как будто еще более неочевидно настраивается. И кнопок перемещения слоев вверх-вниз нет. Ставлю жирный минус.

Фикс багов: Gemini 2.5 Pro

Джиминай бодро накидал фиксов. Смотрим. Ага, ластик заработал. Обводка фигуры есть, но ее цвет не выбирается. Остается черным. По слоям новой кнопки перемещения не появились. То есть в итоге задача разрешена на половину. Так как за цвет фигур могу засчитать только пол балла.

Фикс багов: Gemini 2.5 Pro 06-05

Gemini 06-05. 5 минут и фиксы готовы. Окей, смотрим. Пластик работает. Контур и заливка фигур тоже. А вот со слоями проблема. Кнопки не влияют на порядок слоев. 2 из 3 баллов за это задание.

Фикс багов: GPT-4.1

GPT 4.1. Let's go. Накидал фиксов. Запускаем. Смотрим. Эластик не работает. Цвета фигур работают в целом норм. Кнопки переключения, слоев есть, но они не влияют на отображение. И в итоге ставлю один из трех баллов за это задание. Только за цвет фигур.

Фикс багов: Claude 3.7 Sonnet

Claude 3.7 Sonnet. Окей, фикс готов. Сломались кисти и карандаш. Но зато заливка фигур работает хорошо. Ластик работает как выделитель. Кнопки перемещения слоев есть, но они не работают. То есть дают только треть балла. Слабовато.

Фикс багов: Claude 4 Sonnet

Четвертая версия Клод Санет. Он первый, кто решился открыть проект в браузере и что-то проверить самостоятельно. Он одебажил ошибку сборки. Ластик все еще не работает. Заливка и контур фигур функционируют корректно. кнопки перемещения слоев не влияют на результат и получается даём тоже один из трёх баллов.

Фикс багов: o3

O3, пофиксил аналогично опусу, результат идентичный, но перемещения слоев нет.

Фикс багов: Claude 4 Opus

Опус, окей, пофиксил, вижу что наконец-то ластик работает. Цвет фигур нормально функционирует, но перемещение слоев, как и везде, не влияет на то, что мы видим. Два из трех багов пофикшена. Неплохо, но я ожидал большего.

Фикс багов: итоги

Подводятся итоги по фиксу багов. Ни одна нейронка не смогла пофиксить проблему с переключением слоев.

Blender

Приступим к завершающему тесту, который не совсем стандартный, но очень показательный. Мы будем моделировать блендер с помощью MCP. В качестве модели предлагаю попробовать создать советскую панельку.

Blender: Claude 3.5 Haiku

Claude 3.5 Haiku. Подрубаем MCP. Запускаем. Получаем какой-то базовый прямоугольник. Ну... Я бы сказал, что это не совсем панелька, так что минус.

Blender: Gemini 2.5 Pro

Двигаемся дальше. Gemini запускаем, говорим не юзать сторонние сервисы с моделями, доступные в этом MCP. Gemini очень долго думает и потом сходу выдает дом. Неплохо. Кирпич с окнами. Я поставлю уверенный плюс, хотя многих деталей как бы нет в этой 3D модели.

Blender: Gemini 2.5 Pro 06-05

Gemini 06-05. Он решил сделать угловое здание, реализовал на нем балконы на одной стороне. При этом окон я не увидел. Других деталей тоже. За такое поставлю, если только четверть баллов. Не больше.

Blender: GPT-4.1

GPT 4.1, он попытался создать здание с окнами, но окна не подошли по габаритам, так что минус, это никуда не годится.

Blender: Claude 3.7 Sonnet

3.7 Sonnet, он решил нафигарить большую сложносоставную схему, но жестко не попал с окнами. Зато деревья, двери и ступеньки неплохие. Дам ему за это полбалла.

Blender: Claude 4 Sonnet

Четвертая версия Claude Sonnet. Здесь модель наградила несколько параллелепипедов друг в друге, но в самом центре видно довольно неплохую панельку с нормальными пропорциями окнами и балконами. Даже объектами на крыше. Однозначно плюс, хоть есть пара лишних объектов, которые легко можно удалить самостоятельно.

Blender: o3

GPT-O3. Запускаем и... Пум, получаем какой-то прямоугольник с линиями. Ну, окей.

Blender: Claude 3.7 Opus

Opus. Ж

Share

Summarize Anything ! Download Summ App

Download on the Apple Store
Get it on Google Play
© 2024 Summ