This model is kind of a disaster.

This model is kind of a disaster.

Краткий обзор

В этом видео рассматривается новая модель Opus 4.7 от Anthropic, которая, несмотря на заявленные улучшения, вызывает смешанные чувства. Автор делится своим опытом использования модели, отмечая как положительные моменты, такие как улучшенное следование инструкциям и мультимодальная поддержка, так и серьезные недостатки, включая проблемы с безопасностью, странное поведение в Cloud Code и общую нестабильность. В конечном итоге, автор приходит к выводу, что Opus 4.7 может быть полезен в определенных сценариях, но требует осторожного подхода и не лишен недостатков.

  • Opus 4.7 от Anthropic: улучшенное следование инструкциям и мультимодальная поддержка.
  • Проблемы безопасности и странное поведение в Cloud Code.
  • Общая нестабильность и регрессия в качестве работы модели.

Введение в Opus 4.7

Автор представляет Opus 4.7 от Anthropic, подчеркивая, что это не просто новая модель, а модель, выпущенная для публичного использования. Он отмечает, что провел целый день, работая с ней, и делится своими впечатлениями, надев специальную шляпу Claude. Автор акцентирует внимание на том, что, как и в случае с употреблением пива, модель может становиться "глупее" по мере использования. Он выражает удивление регрессу модели в реальном времени и обещает рассказать о своих впечатлениях после небольшого перерыва на рекламу спонсора.

Спонсор: Depot - ускорение CI/CD

Автор рассказывает о спонсоре видео, Depot, инструменте для ускорения CI/CD. Depot позволяет ускорить GitHub CI до 10 раз и Docker builds до 40 раз. Depot CI - это программируемый движок, который проще, быстрее и может запускаться агентами без отправки кода. Миграция в Depot тривиальна, а интерфейс предоставляет полезную информацию и предлагает исправления при сбоях CI.

Обзор Opus 4.7 от Anthropic

Opus 4.7 - это новая модель от Anthropic, которая является улучшением Opus 4.6 в области разработки программного обеспечения, особенно в сложных задачах. Пользователи могут с уверенностью поручать ей сложную работу, требующую минимального контроля. Модель внимательно относится к инструкциям и проверяет свои результаты. Улучшено качество обработки изображений, что позволяет создавать более качественные интерфейсы и документацию. Opus 4.7 показывает лучшие результаты, чем Opus 4.6, по ряду бенчмарков, но не по всем. Модель имеет ограничения в кибербезопасности, и Anthropic экспериментирует с мерами безопасности для предотвращения злоупотреблений.

Безопасность и ограничения Opus 4.7

Автор демонстрирует пример, когда Opus 4.7 заблокировал запрос на улучшение дизайна сайта T3.gg, посчитав его попыткой внедрения вредоносного кода. Anthropic пытается предотвратить использование модели для вредоносных целей, но это приводит к нежелательным ограничениям. Для использования Opus 4.7 в целях кибербезопасности требуется специальное разрешение. Модель доступна через API Claude, Amazon Bedrock, Google Cloud Vertex AI и Microsoft Foundry по той же цене, что и Opus 4.6.

Улучшения и особенности Opus 4.7

Anthropic выделила несколько улучшений в Opus 4.7, включая улучшенное следование инструкциям, что может привести к неожиданным результатам при использовании старых подсказок. Модель также имеет улучшенную мультимодальную поддержку с более высоким разрешением изображений. Opus 4.7 показывает хорошие результаты в финансовом анализе и использует файловую систему для запоминания информации в течение длительных сессий. Добавлена настройка "extra high" для контроля над компромиссами. В Claude Code появилась команда ultra review для выявления ошибок и проблем с дизайном.

Проблемы с Cloud Code и безопасностью

Автор рассказывает о проблемах с Cloud Code, где система безопасности ошибочно блокирует запросы. Он также делится опытом решения головоломки Gold Bug, где Opus 4.7 заблокировал чат из-за соображений безопасности. Автор выражает недовольство тем, что модель не может решить простую головоломку, но при этом может предоставить информацию о синтезе наркотиков и изготовлении взрывчатки.

Попытка модернизации проекта с помощью Opus 4.7

Автор делится положительным опытом использования Opus 4.7 в CLI Cloud Code для модернизации старого проекта Ping. Модель создала хороший план, но допустила ошибку, предложив устаревшие версии библиотек. Автор отмечает, что Opus 4.7 плохо понимает определения и не имеет актуальной информации. Он также указывает на то, что модель не читает файлы перед их обновлением, что приводит к сбоям.

Регрессия моделей и проблемы с Cloud Code

Автор высказывает мнение, что регрессия моделей связана не с самими моделями, а с плохой поддержкой и обслуживанием Cloud Code. Он считает, что постоянные добавления и изменения в Cloud Code ухудшают работу модели. В отличие от Google и OpenAI, Anthropic использует другие инструменты внутри компании, что приводит к разному опыту для разработчиков.

Примеры ошибок Opus 4.7

Автор приводит примеры ошибок Opus 4.7, включая неудачную попытку модернизации проекта и создание скрипта для клонирования репозитория, который не работает должным образом. Он отмечает, что модель не может выполнить простые задачи, которые легко выполняет GPT-4.

Сравнение с другими моделями и проблемы с разрешениями

Автор сравнивает Opus 4.7 с другими моделями, такими как GPT-5.4, и отмечает, что Opus 4.7 допускает больше ошибок. Он также указывает на проблемы с разрешениями в Cloud Code, где модель постоянно запрашивает разрешения, даже если они уже предоставлены.

WorkOS - решение для enterprise-интеграций

Автор рассказывает о спонсоре видео, WorkOS, компании, предоставляющей решения для enterprise-интеграций. WorkOS позволяет упростить настройку SSO и других функций, необходимых для работы с крупными компаниями.

Выводы и заключение

Автор подводит итоги своего опыта использования Opus 4.7, отмечая ее нестабильность и непоследовательность. Он считает, что модель может быть полезна в определенных задачах, но требует осторожного подхода. Автор также критикует инженерную культуру Anthropic и качество их программного обеспечения. В заключение он делится личной неудачей, связанной с отключением микрофона во время записи видео.

Share

Summarize Anything ! Download Summ App

Download on the Apple Store
Get it on Google Play
© 2024 Summ