Всё дело в сжатии: как артефакты компрессии объясняют природу галлюцинаций LLM

46 минут назад

Вообразите, что перед вами стоит задача: уместить 10 терабайт текстовой информации в файл объемом всего 70 гигабайт. При этом необходимо сохранить возможность извлечь нужный фрагмент по любому запросу. Точного совпадения «байт в байт» не требуется, но смысловая целостность должна быть безупречной.

Ваш вердикт был бы однозначным: «Это классическая компрессия с потерями (lossy compression), где часть данных неизбежно исчезнет».

И вы окажетесь абсолютно правы, поскольку именно по такому принципу функционируют большие языковые модели (LLM).

Прогнозирование идентично сжатию (и это не просто метафора)

Здесь кроется фундаментальный принцип, который является ключевым для понимания всей статьи.

В 1948 году Клод Шеннон математически обосновал: способность предсказывать следующий символ эквивалентна способности сжимать данные. Проще говоря, если алгоритм эффективно угадывает продолжение текста, он способен эффективно его упаковывать. И наоборот.

Это не просто гипотеза, а доказанная теорема: арифметическое кодирование позволяет трансформировать качественную предсказательную модель в мощный архиватор.

# Базовый принцип работы LLM на нижнем уровне:
def predict_next_token(context: str) -> Distribution:
    """Этот процесс объединяет в себе экстраполяцию и декомпрессию"""
    pass

# Чем точнее прогноз — тем меньше бит требуется для записи.
# Экономия бит напрямую означает более эффективное сжатие.

GPT обучается предсказанию следующего токена, что делает её, по сути, продвинутым алгоритмом сжатия. Веса нейросети — это и есть тот самый «пережатый» файл с данными.

С этой точки зрения многие странности ИИ обретают логику.

Текстовый аналог формата JPEG

Всем знакомы последствия чрезмерного сжатия изображений в формате JPEG:

Доминирующие объекты сохраняются четко — контуры лица или цвет неба остаются узнаваемыми.
Микроскопические детали стираются первыми — мелкий шрифт, текстура кожи или номерные знаки превращаются в кашу.
На стыках объектов возникают артефакты — странные шумы, квадраты и ореолы.
При этом артефакты выглядят органично. Неискушенный зритель может принять их за часть оригинального снимка.

Теперь спроецируем это на область знаний:

Сжатие JPEG	Языковая модель (LLM)
Крупные формы и контрасты	Общеизвестные факты, типичные лингвистические паттерны
Мелкие нюансы	Специфические данные, точные числа, редкие хронологические даты
Визуальные артефакты	Галлюцинации и фактические ошибки
Степень сжатия (Quality)	Количество параметров модели (7B → 70B → 405B и далее)
Исходное изображение	Обучающий датасет (корпус текстов)

Галлюцинация — это типичный артефакт компрессии. Нейросеть «помнит», что в данном контексте должен находиться объект определенного типа (например, цитата или дата), но конкретные биты информации утеряны. В результате она реконструирует наиболее вероятный, «правдоподобный» вариант. Это ровно то же самое, что делает алгоритм JPEG, дорисовывая пиксели, которых не было в оригинале.

Универсальное объяснение аномалий

Любой сбой в работе ИИ идеально вписывается в концепцию lossy-сжатия.

Почему LLM демонстрирует успехи в программировании?

Код — это структура с минимальной энтропией. Строгий синтаксис и повторяющиеся конструкции делают его идеальным объектом для сжатия. Шаблонные выражения вроде for i in range(n) встречаются повсеместно. Кодек запоминает эти паттерны почти без искажений, подобно крупным однотонным объектам на фото.

Откуда берутся сложности с математикой?

Точные значения — это те самые «мелкие детали», идущие под нож в первую очередь. Для алгоритма сжатия результат 23 × 47 = 1081 выглядит как набор случайных цифр, лишенных предсказуемого паттерна. Таблицу умножения нельзя эффективно сжать — её нужно либо заучить целиком, либо вычислить. LLM не умеет вычислять напрямую, она лишь пытается восстановить «нечто цифровое, выглядящее уместно».

> Сколько будет 17 × 38?
> GPT: 646  ←  (верно)

> Сколько будет 1847 × 9283?  
> GPT: 17,143,301  ← (ошибка: правильный ответ 17,143,501)

Чем реже встречается комбинация данных, тем выше вероятность артефактов.
Аналогия с JPEG: черты лица переданы верно, а текст на заднем плане нечитаем.

В чем смысл наращивания параметров модели?

Это банальное повышение битрейта. Переход от GPT-175B к более крупным моделям похож на улучшение качества JPEG с 30% до 90%. Больший объем весов позволяет сохранять больше деталей. При бесконечном росте параметров потери стремятся к нулю, но тогда и размер модели сравняется с размером обучающих данных. Гонка за числом параметров — это борьба за детализацию данных.

Почему ИИ лжет с такой уверенностью?

Потому что JPEG «уверенно» отрисовывает несуществующие детали. Артефакты сжатия не снабжены метками о своей недостоверности; они интегрированы в общую структуру. Кодек не осознает потерю информации, так как метаданные об этих потерях также стерты. Это не сознательный обман, а имманентное свойство системы сжатия с потерями.

Temperature — регулятор четкости

Устанавливая параметр temperature = 0, вы приказываете декодеру: «выбирай только самый вероятный токен». Это напоминает фильтр повышения резкости (sharpening): картинка кажется четкой, но артефакты становятся более грубыми и заметными.

Значение temperature = 1.0+ добавляет в процесс шум. Это аналог дизеринга (dithering): детали размываются, точность падает, зато появляется эффект «креативности», который на деле является лишь выборкой из менее вероятных вариантов реконструкции данных.

# temperature = 0.0 → жесткий выбор (argmax), явные артефакты
# temperature = 0.7 → сбалансированный выбор, оптимально для текста
# temperature = 1.5 → высокая зашумленность, "творческий полет"
# temperature → ∞  → хаос, потеря смысла

# Работает как ползунок качества в графическом редакторе, только в обратную сторону.

Следовательно, креативность нейросетей — это не проявление разума, а статистическая интерполяция между точками данных в латентном пространстве. Когда алгоритм сжатия достраивает градиент между двумя блоками пикселей, он тоже в некотором роде «творит».

Новый взгляд на RAG, Fine-tuning и промпты

Если смотреть сквозь призму компрессии, современные методы оптимизации LLM становятся интуитивно понятными:

RAG (Retrieval-Augmented Generation) — это подмешивание данных без потерь (lossless) непосредственно в контекст. Вместо того чтобы полагаться на «память» кодека, вы подсовываете ему оригинал документа. Это как вклейка четкого PNG-фрагмента в размытый JPEG: затратно по ресурсам, зато гарантирует точность.

Fine-tuning (Дообучение) — перекодирование модели с изменением приоритетов. Вы сообщаете системе: «забудь о поэзии, сфокусируйся на юридических формулировках». Это перераспределение «битового бюджета» в пользу конкретной области.

Промпт-инжиниринг — навигация декодера. Вы указываете, в каком сегменте сжатого архива искать ответ. Команда «Ты — эксперт по Kubernetes» работает как команда Seek, направляя декодер в область паттернов, связанных с системным администрированием.

System prompt — это конфигурационный профиль кодека (Codec profile).

Метод	Интерпретация через сжатие
RAG	Внедрение lossless-фрагментов в lossy-поток
Fine-tuning	Перепаковка данных с новым профилем весов
Промпт	Поиск нужного сектора (Seek) + подсказка для декодирования
RLHF	Калибровка под субъективное восприятие (аналог психоакустики в MP3)

Неизбежный вопрос: искоренимы ли галлюцинации?

Если признать галлюцинации артефактами компрессии, математический ответ будет суров: полностью — нет.

Мы можем наращивать параметры (увеличивать битрейт), подключать внешние базы данных (RAG) или совершенствовать архитектуру (улучшать кодек). Всё это минимизирует ошибки.

Однако, пока мы пытаемся сжать 10 ТБ знаний в 70 ГБ, информационные потери неизбежны. Невозможно обойти предел энтропии данных, не пожертвовав точностью.

Любые обещания «полностью решить проблему галлюцинаций» без упоминания о гигантском расширении памяти или контекста — это либо маркетинговая уловка, либо игнорирование теории информации.

Неожиданный поворот: человек как lossy-кодек

Можете ли вы в деталях воспроизвести вчерашний обед или содержание десятого слайда из презентации на прошлой неделе?

Наша память — такой же алгоритм сжатия с потерями. Мозг трансформирует поток ощущений в нейронные связи, отсекая лишнее и реконструируя пробелы. В психологии это явление называют конфабуляцией — мозг заполняет пустоты памяти вымышленными, но логичными деталями.

По сути, мы тоже галлюцинируем.

Причины те же: объем поступающей информации колоссален по сравнению с емкостью хранилища. Мы не помним лиц прохожих, потому что наш биологический кодек посчитал эти данные не заслуживающими битов памяти.

Разница лишь в том, что у эволюции были миллионы лет на оптимизацию нашего «кодека», а у языковых моделей — всего несколько лет активного развития.

Итог: Искусственная память, а не разум

LLM — это не «цифровой интеллект» и не «статистический попугай».

Правильнее называть это искусственной памятью. Грандиозной по охвату, дорогой в производстве и неизбежно фрагментарной — в точности как наша собственная.

Принятие этой концепции снимает лишний драматизм. Исчезает страх перед «самоосознанием» архива и завышенные ожидания абсолютной непогрешимости. Вместо этого появляется поле для инженерной работы: внедрение lossless-данных там, где важна точность, и использование преимуществ сжатия там, где нужна широта охвата.

Возможно, со временем мы создадим идеальный архив человеческих знаний без потерь. Но это будет принципиально иная технология.

А пока — мы работаем с текстовым JPEG. И в этом нет ничего плохого.

Источник