Введение в большие языковые модели

19 Янв в 10:38

Примечание: этот материал подготовлен как вводный курс для студентов и исследователей, интегрирующих искусственный интеллект в свою научную и профессиональную деятельность. Лекция представляет собой базовый обзор с необходимыми упрощениями для облегчения входа в тему. Автор будет признателен за конструктивную обратную связь.

Цикл «Технологический минимум» (4 части):

Часть 1: Архитектура больших языковых моделей (текущий материал);
Часть 2: Искусство промпт-инжиниринга;
Часть 3: Архитектура RAG-систем;
Часть 4: Автономные ИИ-агенты.

«Значение слова определяется его окружением» — Джон Р. Фёрт

Понятие языковой модели

Под языковой моделью (LM — Language Model) понимается алгоритмическая система, способная прогнозировать вероятность появления следующего слова на основе предшествующего текста. Математически это выражается формулой:

P(wt | w1, w2, …, wt-1)

Введение в большие языковые модели — Визуализация процесса предсказания токенов

Концепция предсказания следующего элемента (токена) является фундаментом для всех поколений моделей. Эволюция технологий в этой области прошла через три ключевых вехи:

Эпоха статистических n-грамм. Ранние модели опирались на частотный анализ: они вычисляли, насколько часто конкретные слова соседствуют друг с другом. Например, после слова «нейронная» с высокой вероятностью следует «сеть». Главным недостатком был крайне узкий «горизонт планирования» — модель быстро теряла нить повествования, так как учитывала лишь 2–3 соседних слова.
Векторная семантика (word2vec и GloVe). На этом этапе произошел переход от простого подсчета слов к моделированию их смысловых связей. Каждое слово превратилось в эмбеддинг — координату в многомерном пространстве. Теперь компьютер «понимал», что «автомобиль» и «машина» семантически близки, поскольку в векторном пространстве они располагаются рядом.
Архитектура Трансформеров. Революция произошла с внедрением механизма внимания (attention). Он позволил модели оценивать значимость каждого слова в тексте относительно всех остальных, независимо от расстояния между ними. Это стало фундаментом для создания современных LLM (Large Language Models), которые оперируют контекстом на уровне целых документов.

Что делает модель «большой»?

Современные LLM — это развитие идей классических моделей, возведенное в абсолют благодаря колоссальным масштабам. «Большой» модель называют из-за объема обучающей выборки (триллионы токенов) и количества внутренних связей — параметров.

Параметры — это своего рода «цифровые знания» нейросети. В спецификациях моделей часто встречаются индексы 7B, 30B, 70B или 405B. Литера B (billion) указывает на миллиарды параметров. Модели среднего размера (до 14B–30B) сегодня можно запускать даже на домашнем ПК, используя методы оптимизации (квантование), тогда как гиганты требуют мощных серверных кластеров.

Важно понимать: обучаясь на массиве текстов всей человеческой цивилизации, LLM начинают улавливать не только структуру языка, но и логику мира. Именно поэтому их называют фундаментальными моделями: они служат интеллектуальным ядром для тысяч прикладных инструментов.

Инструктивные модели: переход к диалогу

Первые версии LLM просто «дописывали» текст. На запрос «Как приготовить кофе?» они могли выдать список заголовков из кулинарных книг вместо рецепта. Чтобы сделать ИИ полезным помощником, были созданы Instruct LLM.

Обучение инструктивных моделей — Процесс дообучения модели на выполнение команд

Их обучают по принципу «запрос — идеальный ответ». Ключевую роль здесь играет метод RLHF (Reinforcement Learning from Human Feedback) — обучение с подкреплением на основе оценок человека. Люди ранжируют ответы нейросети, заставляя её выбирать наиболее вежливые, точные и логичные варианты. Так появились привычные нам чат-боты: ChatGPT, Claude, DeepSeek и другие.

Токенизация: как ИИ «читает» текст

LLM не видит буквы или слова так, как видим их мы. Текст разбивается на токены — минимальные смысловые единицы. Токеном может быть целое слово, его корень или даже отдельный знак препинания.

Пример токенизации — Разбиение предложения на токены

Количество токенов всегда больше количества слов. Именно в токенах измеряется контекстное окно (объем памяти модели) и рассчитывается стоимость использования коммерческих API. Для визуализации процесса можно воспользоваться специальными сервисами.

Ключевые настройки: Температура и Лимиты

Поведение модели можно корректировать с помощью двух основных параметров:

Temperature (Температура). Этот параметр регулирует степень креативности. При низких значениях (0.1–0.3) модель выбирает самые очевидные варианты — это подходит для анализа данных и кода. Высокие значения (0.7–1.0) делают ответы более разнообразными, но повышают риск фактических ошибок.
Max Tokens. Ограничитель длины ответа. Он позволяет контролировать краткость выдачи и экономить ресурсы системы.

Влияние температуры на результат — Зависимость вариативности ответов от настройки температуры

Мультимодальность: выход за пределы текста

Современный этап развития ИИ — это мультимодальность. Новейшие системы (GPT-4o, Claude 3.5, Gemini) способны обрабатывать не только текст, но и изображения, аудио и видео в рамках единого «смыслового пространства».

Мультимодальные возможности ИИ — Интеграция различных типов данных в единую модель

Это означает, что модель может «увидеть» график на фотографии, соотнести его с текстовым описанием и сделать выводы, используя свои внутренние знания. Текст, картинка и звук для такой нейросети — лишь разные способы кодирования одних и тех же смыслов.

Итоги и ограничения

Несмотря на кажущееся всемогущество, LLM имеют свои «родовые травмы»: склонность к галлюцинациям (уверенному представлению ложных фактов), ограниченность даты обучения и чувствительность к качеству запроса. Понимание этих нюансов привело к созданию таких дисциплин, как промпт-инжиниринг и RAG (дополнение ответов данными из внешних баз), которые мы разберем в следующих частях.