How LLMs Actually Work | 0xkato

Краткое содержание

Данная статья представляет собой руководство по тому, как работают большие языковые модели (LLM). Современные LLM в основном построены на основе блоков трансформеров, и понимание их механизмов позволяет лучше осознать, как функционируют эти модели. Статья охватывает ключевые процессы, которые происходят внутри современных LLM, такие как токенизация, встраивание, позиционное кодирование и внимание.

Большинство современных LLM используют схему трансформера.
Различия между моделями заключаются в размере, конфигурации и данных для обучения.

Токенизация

Модели не читают текст напрямую, а работают с целыми числами, представляющими токены. Токенизация — это шаг, который Преобразует текст в последовательность этих чисел. Токены обычно представляют собой части слов, чтобы улучшить эффективность обработки. Каждая модель имеет свой фиксированный словарь, состоящий из десятков тысяч и более словарных единиц.

Встраивание

Каждый токен ID это всего лишь индекс, но ему придается смысл с помощью встраивающей матрицы. Эта матрица объединяет смысловые значения токенов и работает на основе векторов. Семантически схожие токены будут иметь похожие векторы, что обеспечивает возможность выполнения математических операций над ними.

Позиционное кодирование

Позиционное кодирование позволяет модели учитывать порядок токенов в последовательности. Оно добавляет специфические паттерны к вектору токена на основе его позиции в тексте, чтобы модель знала, какая информация пришла первой, а какая — позже.

Внимание

Внимание — это механизм, который позволяет каждому токену определять, на какие другие токены следует обратить внимание. Это достигается посредством преобразования токена в три вектора: запрос (Query), ключ (Key) и значение (Value).

Многоголовое внимание

Многоголовое внимание решение проблемы многозначности языка, позволяя модели одновременно учитывать различные отношения между токенами. Каждая голова работает независимо, что предоставляет модели множество различных представлений одной и той же информации.

Полносвязная сеть

После применения механизма внимания следует полносвязная сеть, которая обрабатывает каждый токен, предоставляя более глубокую интерпретацию. Этапы включают расширение, применение нелинейной функции и сжатие вектора обратно до исходного размера.

Остаточный поток и нормализация слоя

Остаточный поток позволяет накоплению информации в модели. После выполнения каждого подблока, выход добавляется обратно к исходному вектору. Нормализация слоя помогает поддерживать стабильность чисел, предотвращая их слишком большое увеличение или уменьшение.

Прогноз следующего токена

На последнем этапе модель предсказывает следующий токен, основываясь на векторе последнего токена. Результаты преобразуются в логиты, которые затем превращаются в вероятности с помощью функции softmax. Модель обычно использует другие настройки, такие как температура и выбор топ-ка или топ-p, для управления тем, насколько разнообразным будет выход.

Архитектура против обученных весов

Большинство современных LLM имеют общую структуру, но различия заключаются в обученных весах, выбранной конфигурации и последующей тренировке. Обученные веса изменяются на основе различных наборов данных и метрик, что приводит к различным моделям, которые все же основаны на одной архитектуре.

6/6/2026 0xkato.xyz