Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Кто пишет код лучше всех? Сравнил GPT‑5.2, Opus 4.5, Sonnet 4.5, Gemini 3, Qwen 3 Max, Kimi, GLM

Краткое содержание

В видео сравниваются топовые нейросетевые модели в задачах программирования, включая создание проектов "с нуля" по одному промпту. Рассматриваются модели от Anthropic, Google, OpenAI, а также open-source решения. Основные этапы тестирования включают создание fantasy RPG to-do list, парсера проблем с Reddit, админки для Docker контейнеров, системы для автоматического дубляжа видео и 3D-модели в Blender. GPT 5.2 показал наилучшие результаты в большинстве тестов, а Composer оказался самым быстрым, но с менее впечатляющими результатами. Подчеркивается важность комбинации инструмента и модели, а также возможность создания MVP стартапов в один промпт.

  • Сравнение топовых нейросетевых моделей в задачах программирования.
  • Тестирование моделей на различных проектах, от fantasy RPG to-do list до 3D-моделирования.
  • GPT 5.2 лидирует по результатам, Composer самый быстрый, Gemini 3 Flash - оптимальный по соотношению цена/качество.
  • Возможность создания MVP стартапов в один промпт.

Начало

Автор рассказывает о быстром развитии нейросетей и конкуренции между Google (Gemini 3 Pro, Flash), Anthropic (Opus) и OpenAI (GPT 5.1, 5.2). В видео планируется сравнить топовые модели из лидербордов на VIP кодинг тестах, заставляя их сделать сложные проекты в один промпт, чтобы определить лучшую модель для программирования. Автор также представляется как разработчик, тестирующий нейросети и инструменты, ищущий реально работающие решения.

Какие модели сравниваем и где

Автор перечисляет сравниваемые модели: Anthropic Sonnet 4.5 и Opus 4.5, Google Gemini 3 Pro и Flash, OpenAI GPT 5.2, Composer 1 от Cursor, Kimi K2, GLM 4.7 и Qwen 3 Max. GPT Pro от OpenAI не тестируется из-за высокой стоимости использования через API. В качестве среды разработки используется Cursor для большинства моделей и Cline для остальных. Для доступа к моделям по API используется Polza AI, агрегатор API, предлагающий удобную интеграцию и оплату без VPN.

Fantasy RPG TODO list

Первый тест - создание базового to-do list в стиле фэнтези RPG с ачивками и предметами. Для вдохновения используются изображения с Pinterest, описанные GPT для создания промпта. Условия тестирования: один стартовый промпт и до пяти дополнительных вызовов модели для исправления багов. В промпте указано, что иконки квестов должны быть эмодзи, сгенерированные LLM, а ачивки должны сопровождаться текстом от нейронки.

Результаты первого теста

Composer создал страшноватый дизайн без ачивок и предметов. GLM 4.7 создала рабочий продукт, но квесты не помечаются выполненными, а ачивок нет. Kimi K2 создает задачи, но не завершает их и постоянно зависает. Gemini Flash работает более-менее, но без предметов. Qwen 3 Max не смог дописать код. GPT все работает, дизайн норм, механики есть. Gemini Pro не смог запустить создание квестов после фиксов. Sonnet работает, дизайн средний. Opus сделал все как надо: ачивки, предметы, иконки, крутой дизайн и шрифты.

Парсер проблем с Reddit

Вторая задача - создание системы для сбора информации с Reddit, выявления проблем пользователей и построения карты этих проблем. Сбор данных осуществляется через PlayWright с использованием прокси NodMaven для избежания блокировок. NodMaven предлагает чистые IP и фильтрацию по локации и качеству прокси. Для проекта выбрана локация США, Калифорния.

Результаты второго теста

Composer не справился. GLM 4.7 запускается, но ничего не получает. Kimi K2 открывает фронтенд, но ничего не стартует. Gemini Flash исправил все за два промпта, карта работает. Qwen 3 Max не завелся, система не находит информацию. GPT заработала сразу, после двух промптов исправлены мелкие детали. Gemini 3 Pro запустился, но ничего не нашлось. Sonnet работает, но комменты не подгрузились. Opus сделал все за три доп промпта.

Админка для Docker контейнеров

Третья задача - создание кастомной админки для Docker контейнеров с возможностью поднимать паблик репозитории без логина, алертами в Telegram и встроенным редактором. Промпт включает требования к интеграции с GitHub, редактору, настройке доменов и HTTPS.

Результаты третьего теста

Composer сделал проект, в котором ничего не работает. GLM 4.7 что-то запускает, но в браузере ничего нет. Kimi K2 не смог ничего завести. Gemini Flash коннектится к GitHub, но private репозитории клонируются пустыми, паблик проекты запускаются. Qwen 3 Max падает с ошибкой. GPT практически все заработало сразу, через два промпта все идеально. Gemini 3 Pro завелся, но Docker падает без отображения логов, дизайн плохой. Sonnet работает: интеграция с GitHub, редактор файлов, запуск, остановка, но без алертов. Opus работает идеально: все виды запуска проектов, редактор кода, поиск по логам, алерты в Telegram.

Система для авто дубляжа видео

Четвертая задача - создание системы для автоматического дубляжа видео на другой язык. Система должна транскрибировать звук с помощью ElevenLabs, переводить с LLM, озвучивать с помощью клонирования голоса в Minimax и делать липсинк в Pixverse. В начальную папку добавлены примеры кода для интеграции с Minimax и Pixverse.

Результаты четвертого теста

Composer выдал работающий проект, но транскрипция не возвращает слова. GLM 4.7 работает, но превью не отображается. Kimi K2 не завела даже транскрибацию. Gemini Flash работает транскрипция и перевод, но падает на озвучке голоса. Qwen 3 Max не смог порешать транскрибацию. GPT работает отлично, есть прогресс в процентах у каждой задачи. Gemini 3 Pro завелась, но без выбора voice ID и нормального превью. Sonnet не справился с ошибкой transcription failed. Opus заработала сразу, через два фикса все офигенно работает.

Моделирование в Blender

Финальный тест - создание 3D модели японского замка Мацумото в Blender с помощью MCP.

Результаты пятого теста

Результаты моделирования в Blender. Автор отмечает, что результаты GPT и Opus ему нравятся больше всего.

Финальные выводы

GPT победил во всех тестах благодаря extra high thinking режиму. Opus выдает отличные результаты, но напрягается меньше. Composer самый быстрый, но результаты не супер крутые. Gemini three Flash - хороший вариант для бюджетного AI кодинга. Важна комбинация инструмента и модели. Можно реализовывать небольшие MVP стартапов в один промпт. Бутылочное горлышко разработки - изучение документации, тестирование, продумывание алгоритмов и архитектуры.

Заключение

Автор подводит итоги тестирования и размышляет о будущем развитии нейросетей. Призывает подписываться на канал и Telegram канал.

Share

Summarize Anything ! Download Summ App

Download on the Apple Store
Get it on Google Play
© 2024 Summ