Маленькие LLM как агенты - тест локальных моделей до 8B

Маленькие LLM как агенты - тест локальных моделей до 8B

Краткий Обзор

В этом видео специалисты из Seriflow протестировали, насколько маленькие локальные модели подходят для агентских задач, работая через Open AI с реальным репозиторием Tools. Использовались модели от 3 до 9 млрд параметров, запущенные локально через llama.cpp с контекстом 64.000 токенов. Оценивалось, как модели решают задачи, потребление памяти и время работы.

  • Проверка способности моделей работать с существующей кодовой базой.
  • Оценка агентского поведения в инструментальном режиме.
  • Сравнение стабильности и надежности моделей в реальных задачах.

Вступление

В видео компания Seriflow проверяет, насколько маленькие локальные модели пригодны для агентских задач, используя Open AI с репозиторием Tools. Модели запускаются локально через llama.cpp с контекстом 64.000 токенов. Оценивается решение задач, потребление памяти и время работы моделей с параметрами от 3 до 9 млрд.

1 Задача. Объяснение

Первый тест включает работу с готовым проектом Focusboard, приложением для продуктивности команд. В репозитории есть Agent MD, определяющий правила работы с проектом. Задача модели — добавить автозавершение Focus Session и живой count в интерфейс, находя нужные файлы, не затрагивая лишний код и не нарушая API.

1 Задача. Nanbeige4.1-3B

Nanbeige4.1-3B излишне рассуждает, что является её особенностью, но как модель для работы с готовым проектом она слаба. Основная проблема — некорректный вызов тулов, и никакие изменения параметров не помогли. Модель не справилась с тестом.

1 Задача. Ministral-3-3B

Ministral-3-3B усердно старалась помочь, но после первого сообщения о завершении в программе возникла ошибка. Модель не смогла исправить ошибку даже после нескольких попыток и провалила тест.

1 Задача. Qwen3.5-4B

Qwen3.5-4B проявила себя очень умно для своего размера, проанализировав проект и приступив к задаче. Модель увидела, что в проекте есть тестирование, и попыталась добавить тесты для новой функции, хотя это не удалось. В итоге модель успешно справилась с основной задачей: таймер работал и завершался автоматически.

1 Задача. Nemotron-3-Nano-4B

Nemotron-3-Nano-4B столкнулась с проблемами, аналогичными Nanbeige, с некорректным вызовом тулов. Изменения параметров не повлияли на результат, и модель не смогла нормально встроиться в рабочий процесс, провалив тест.

1 Задача. Gemma4-E4B

Gemma4-E4B показала себя лучше, хотя и не закрыла задачу с первого раза. Пришлось несколько раз возвращать её в нужное русло, но модель держала контекст и постепенно двигалась к рабочему решению. С четвёртой попытки функционал был доделан, результат положительный, но не уверенный.

1 Задача. SERA-8B

От SERA-8B ожидания были выше, но поведение оказалось нестабильным. Несколько первых запусков зацикливались. С четвёртого запуска модель справилась, но результат был ненадежным.

1 Задача. Ministral-3-8B

Ministral-3-8B с первого раза поняла задачу, аккуратно прошлась по проекту, реализовала нужную логику, покрыла её тестами и проверила корректность работы. На фоне предыдущих участников Ministral-3-8B выглядела собранно и уверенно.

1 Задача. Qwen3.5-9B

Qwen3.5-9B с первого раза сделала задачу и написала тесты, но при проверке оказалось, что таймер завершался моментально, то есть логика работала неправильно. После нескольких попыток доработки модель не смогла исправить поведение, и результат оказался отрицательным.

1 Задача. OmniCoder-9B

OmniCoder-9B лучше всех разобралась в проекте, реализовала функционал с первого раза, покрыла всё тестами и не допустила заметных ошибок. Это был один из самых уверенных и аккуратных прогонов.

1 Задача. Итоги

Представлена таблица с результатами моделей, включающая модель, тип квантизации, время выполнения и итоговый результат (решила или нет).

2 Задача. Объяснение

Второй тест — web search задача, где модель работает как агент с инструментами поиска и файловой системы. Ей нужно найти свежие новости и посты о новых моделях генерации изображений за период с января по апрель 2026 года, отфильтровать релевантный материал и сохранить результат в JSON-файл.

2 Задача. Nanbeige4.1-3B

Nanbeige4.1-3B смогла найти нужную информацию, но на этапе сохранения результатов в JSON начала эволюционировать и не смогла нормально записать файл. Часть задачи выполнена, но финальный результат не получен.

2 Задача. Ministral-3-3B

Ministral-3-3B в целом справилась неплохо: нашла информацию, сформировала JSON и довела сценарий до конца. Однако есть вопросы к качеству источников и confidence расставлен странно.

2 Задача. Qwen3.5-4B

Qwen3.5-4B отработала очень уверенно, нашла хорошие, релевантные материалы, без проблем собрала всё в JSON и сделала задачу очень чисто. Явных недостатков не замечено.

2 Задача. Nemotron-3-Nano-4B

Nemotron-3-Nano-4B формально выполнила задачу, информацию нашла и результат выдала, но сам результат получился слабее остальных. Ссылок было мало, и часть найденного выглядела не совсем в тему.

2 Задача. Gemma4-E4B

Gemma4-E4B нашла нужную информацию, но сначала не справилась с сохранением результатов в файл. Только с третьей попытки она поняла, что нужно сделать, создала файл и записала туда данные.

2 Задача. SERA-8B

SERA-8B упёрлась не в поиск, а в поведение агента. Информацию она находила, но на этапе записи ушла в цикл и не довела задачу до конца, сожгла около 200 web search запросов.

2 Задача. Ministral-3-8B

Ministral-3-8B справилась с задачей с первой попытки, корректно нашла информацию, сохранила её в JSON и адекватно расставила Confidence.

2 Задача. Qwen3.5-9B

Qwen3.5-9B отработала с первой попытки и показала один из лучших результатов, нашла больше всего актуальной и релевантной информации и без проблем сохранила всё в JSON.

2 Задача. OmniCoder-9B

OmniCoder-9B во втором тесте показал себя очень хорошо, с первой попытки нашёл много полезной информации, корректно записал всё в файл и прошёл сценарий без лишних проблем.

2 Задача. Итоги

Во втором тесте разброс результатов большой. Часть моделей находила информацию, но ломалась на этапе записи в JSON. Самые сильные модели закрывали всё с первого раза, находили релевантные источники и без проблем сохраняли файл.

3 Тест. Benchmark tool calling. Объяснение

Третий тест — бенчмарк на Tool calling для локальных моделей. Модель не пишет код и не делает web search, а должна правильно решать, когда вызвать инструмент, какой инструмент выбрать и когда не вызывать ничего. Внутри бенчмарка 12 фиксированных промтов, включая простые вызовы, неоднозначные запросы и restrain промпты. Оценка считается по доле корректных вызовов и отказов.

3 Тест. Итоги

Результаты бенчмарка показывают, что более сильные модели поднимаются выше в рейтинге. GO 431B получил Agent Score 0,92. Среди компактных моделей лучший баланс показал Nemotron-3-Nano-4B с Agent Score 0,8 и средней задержкой около 3 секунд. Ministral-3-3B остаётся самой быстрой моделью, но по качеству решения она ниже.

Общие выводы. Заключение

Маленькие модели уже могут быть агентными, но не все. Некоторые хорошо рассуждают, но ломаются на тулах, другие ищут информацию, но не могут завершить задачу. Лучшие результаты показали модели, стабильные в реальных задачах, а не только в бенчмарках.

Share

Summarize Anything ! Download Summ App

Download on the Apple Store
Get it on Google Play
© 2024 Summ