Когда ИИ отключается: Путешествие сквозь воображение и иллюзии

Когда ИИ отключается: Путешествие сквозь воображение и иллюзии
Когда ИИ закрывает глаза: Путешествие между воображением и галлюцинациями

Введение

Воображение человека издавна привлекало внимание философов и учёных – это способность мыслью создавать образы вне непосредственного восприятия. Сегодня мощные генеративные алгоритмы искусственного интеллекта (ИИ) – от больших языковых моделей (LLM) до нейросетей для создания изображений (GAN, диффузионные модели) – тоже рождают новые образы. Порой результаты работы таких моделей выходят за рамки истины и воспринимаются как ошибки или «галлюцинации».

Это вызывает вопрос: насколько сходны или различны механизмы, благодаря которым человек воображает, и те, благодаря которым ИИ «галлюцинирует».

Чтобы ответить, необходимо междисциплинарное исследование – от когнитивной психологии и нейронаук до философии сознания и современных технологий ИИ. В этой статье мы рассмотрим определение и природу воображения у человека, природу «галлюцинаций» у ИИ, сравним их механизмы и функцию, обсудим различия в степени осознанности и управляемости этих процессов, а также рассмотрим философские аспекты субъективного опыта. Наконец, опираясь на понимание человеческого воображения, мы предложим подходы к повышению управляемости генерации в ИИ и приведём примеры их реализации, оценивая перспективы такого симбиоза идей.

Воображение человека: когнитивный и нейронаучный взгляд

Определения и суть. С точки зрения психологии, воображение – это способность формировать внутренние образы или идеи объектов и ситуаций, которые не даны в текущем восприятии. Иначе говоря, человек может «увидеть мысленным взором» то, чего сейчас нет перед глазами, и даже то, чего никогда не было в его опыте. Философы указывают, что воображать – значит мысленно представлять что-то без необходимости верить в реальность представляемого. Например, мы можем представить мифическое существо или возможное событие будущего, оставаясь сознательными, что это лишь образ в уме. Исторически воображение рассматривалось как важнейшая способность разума: так, Дэвид Юм еще в XVIII веке писал, что идеи воображения менее яркие и живые, чем воспоминания, но всё же являются копиями наших ощущений, комбинированными умом. Воображение может быть произвольным (намеренным) – когда мы сознательно фантазируем или планируем, – и непроизвольным (спонтанным) – как в снах или случайных грёзах. В любом случае, это познавательный процесс переработки опыта: образы извлекаются из памяти и творчески преобразуются, образуя новые комбинации.

Механизмы в мозге. Современные нейронауки рассматривают воображение как функцию ряда взаимосвязанных областей мозга. Многие исследования указывают на ключевую роль так называемой «default mode»-сети – сети пассивного режима работы мозга, активной при мысленных блужданиях и представлениях.

Воображение опирается на память: когда мы представляем себе новую ситуацию, мозг будто бы рекомбинирует фрагменты прошлых впечатлений.

Например, способность вообразить эпизод будущего (называемую эпизодическим прогнозированием) тесно связана с памятью о прошлых событиях – мы переставляем и объединяем детали пережитого опыта для моделирования возможного будущего. В процессе задействованы и сенсорные зоны: при живом визуальном воображении активируется зрительная кора, почти как при реальном зрительном восприятии. Мысленные образы действительно во многом «рисуются» теми же нейронными контурами, что и образы на сетчатке глаза – отсюда метафора «видеть мысленным взором». Однако воображение не сводится лишь к воспроизведению старых образов – в нём есть элемент творчества и новизны. Нейрофизиологи разделяют понятия образного воспоминания (imagery) и собственно воображения: первое – это «проигрывание» в уме ранее виденного, а второе – создание качественно новых мысленных сцен. Иммунитет человека к скучной реальности во многом обеспечивается этой способностью «творческого синтеза». Например, мозг может вообразить невиданный пейзаж, комбинируя знакомые элементы (скажем, горы необычного цвета под двойным солнцем). С нейронной точки зрения, такая способность может объясняться «перепрофилированием» отделов мозга: структуры, изначально служившие для реальных действий или восприятия, в ходе эволюции стали использоваться и для внутреннего моделирования этих действий и образов. Так, области, участвующие в движении, могут активироваться при воображаемом воспроизведении этого движения – мозг как бы запускает моторную программу «вхолостую», получая ментальный сценарий вместо реального жеста.

Другой важнейший компонент воображения – гиппокамп и связанные с ним структуры памяти. Традиционно гиппокамп известен как хранилище воспоминаний, однако новая точка зрения предполагает, что его фундаментальная функция шире – генерация воображаемых сценариев. Исследования нейронной активности у грызунов показали, что нейроны гиппокампа могут воспроизводить паттерны, соответствующие возможным путям движения, не совершённым в реальности. Иными словами, мозг «примеряет» альтернативные траектории, не покидая места – словно прокручивает варианты развития событий. Учёные выдвинули гипотезу, что гиппокамп – это своего рода генератор гипотез, фабрика ментальных проб и предсказаний. Тогда память об эпизодах прошлого и навигация в пространстве оказываются частными случаями более общей способности мозга – создавать мысленные модели мира (воображение).

Функции воображения. Зачем эволюции понадобилось такое «проектное бюро» в голове? Воображение выполняет сразу несколько важных функций. 

Во-первых, оно лежит в основе творчества: любые изобретения, произведения искусства или новые идеи рождаются из способности переступить границы действительности и смоделировать нечто новое. Без этой способности человеческая культура была бы невозможна. 

Во-вторых, воображение участвует в решении задач и планировании – мы можем прокрутить ситуацию, представить разные исходы и таким образом подготовиться к будущему, не рискуя на практике. Классический пример – вообразить ход шахматной партии или предвидеть последствия какого-то поступка.

В-третьих, воображение связано с эмпатией и социальным пониманием: представляя себе, что думает или чувствует другой, мы как бы моделируем чужое сознание у себя в уме. 

Наконец, воображение тесно сплетено с нашим самосознанием: способность мысленно перенестись в прошлое (воспоминание) или будущее, представить альтернативные версии себя, оценить свои действия – всё это придаёт непрерывность и цельность нашей личности. Недаром психика без воображения была бы «приклеена к настоящему моменту» и лишена мотивации что-либо менять. Можно сказать, что воображение расширяет границы опыта: благодаря ему мы живём не только в мире, который есть, но и в мире, который мог бы быть.

Генеративные модели и «галлюцинации» ИИ

Что такое «галлюцинации» ИИ. В последние годы появилось понятие «галлюцинация» применительно к работе алгоритмов искусственного интеллекта. Этим термином по аналогии с психологией обозначают случаи, когда ИИ-система выдаёт убедительный на вид, но вымышленный или ошибочный результат, не соответствующий реальным данным. Например, разговорный чат-бот может с уверенностью сообщить несуществующий «факт» или сослаться на фальшивую научную статью, хотя формально его ответ выглядит правдоподобно. Так произошло в известном случае: адвокат воспользовался нейросетью ChatGPT для поиска судебных прецедентов, а та сгенерировала несуществующие решения судов – и даже снабдила их правдоподобными ссылками на юридические базы. Почему же ИИ «выдумывает» факты? Главная причина в том, что у него нет встроенного механизма проверки реальности. Генеративная модель по своей сути статистическая: она подбирает наиболее вероятное продолжение текста или образа на основе обучающих данных. Цель такой модели – правдоподобие, а не истина. Как отмечают специалисты, алгоритм типа LLM работает наподобие “продвинутого автодополнения”: он старается выдать последовательность слов, которая кажется связной, но не пытается удостовериться, соответствует ли она фактам. Поэтому полученная информация может звучать убедительно, однако её точность носит случайный характер. По сути, когда ИИ не уверен, он не замолкает (как сделал бы осторожный человек), а всё равно продолжает генерировать наиболее вероятный по его внутренней статистике ответ – даже если тот неверен.

Аналогичная проблема проявляется и в генеративной графике. Модели типа GAN (генеративно-состязательные сети) или диффузионные нейросети способны выдавать фотореалистичные изображения по текстовому запросу. Однако и они иногда «галлюцинируют» детали, нарушающие реальность: например, при попытке нарисовать человека могут добавить лишние пальцы или искажение черт – артефакты, которых не было в исходных данных. Причина та же: модель не обладает пониманием того, что рисует, а создаёт новую картинку, опираясь на статистические связи в примерах, которыми она была обучена. Если данных недостаточно или запрос выходит за пределы обычного, алгоритм заполняет пробелы произвольным образом.

Причины и механизмы ошибок. «Галлюцинации» ИИ – это побочный продукт самой природы генеративных моделей. Теория и эксперименты показывают, что любая модель, обученная максимизировать правдоподобие исходя из ограниченных данных, неизбежно будет иногда давать отклоняющиеся от реальности ответы. К причинам относят несколько факторов.

Во-первых, ошибки данных: если в обучающей выборке имелись несоответствия между условием и ответом, модель могла «подсмотреть» неправильные соответствия. 

Во-вторых, поиск новизны: интересный взгляд предлагает аналогию с человеческим творчеством. В творческом процессе ценятся одновременно новизна и полезность идей. Если слишком гнаться за новизной, есть риск уйти в фантазии без связи с реальностью; если же придерживаться только строгой достоверности, можно скатиться в рутину. Подобно этому, генеративная сеть, которую поощряют за оригинальность, начинает выдавать более необычные, но иногда неверные решения; а модель, жёстко привязанная к данным, напротив, может становиться излишне консервативной и просто повторять заученные образцы. Таким образом, баланс между креативностью и точностью – тонкая грань, и алгоритм, не имея собственных “суждений”, легко её теряет. 

В-третьих, технические аспекты декодирования: например, в языковых моделях использование методов случайного выбора вроде top-k sampling (выбор из топ-N самых вероятных вариантов) повышает разнообразие генерируемого текста, но статистически также увеличивает долю ошибок. Иными словами, усилия сделать речь ИИ менее шаблонной могут одновременно снизить её достоверность.

Важно понимать, что термин «галлюцинация» здесь употребляется метафорически. В психологии галлюцинация – это ложное восприятие, когда человек видит или слышит то, чего нет, принимая это за реальность. У ИИ же нет органов чувств, его «галлюцинации» – не ощущение, а скорее конфабуляция, выдумка, сбой в логике ответа. Фактически ИИ не отличает вымысел от реальности, если того не заложено в его алгоритмах. Некоторые исследователи даже критикуют сам термин «галлюцинация» за очеловечивание машины – ведь у компьютера нет внутреннего опыта, который мог бы обмануть его же восприятие. Тем не менее, словосочетание “галлюцинации ИИ” прочно вошло в обиход, отражая неожиданный и порой беспочвенный характер генерируемых содержаний.

Примеры генерации и сбоев. Яркий пример «галлюцинаций» нейросети – алгоритм DeepDream, созданный инженерами Google. Его изначальная задача состояла в том, чтобы усилить и визуализировать образы, которые распознаёт сверточная сеть в случайном шуме. Результаты оказались сюрреалистическими: сеть начинала видеть в обычных облаках множество собак, глаз и причудливых узоров, усиливая их с каждой итерацией. Получившиеся изображения действительно напоминают психоделические видения под ЛСД. Исследователи отметили, что характер искажений подобен тому, что происходит в зрительной коре головного мозга под действием галлюциногенов. Грубо говоря, нейросеть «дорисовывала» скрытые паттерны так же, как мозг человека при наркотическом опьянении начинает проецировать внутренние образы на внешний мир.

Этот пример показал принципиальное сходство: и биологические, и искусственные системы могут порождать иллюзорные образы при усилении своих внутренних состояний.

Разница, опять же, в том, что человек переживает эти иллюзии как нечто реально видимое, тогда как для компьютера это просто данные. В целом, генеративные модели способны удивлять – и иногда пугающе качеством (когда ИИ правдоподобно имитирует фото или текст), а иногда – явными несуразностями. Пользователям новых AI-инструментов уже хорошо знакомы примеры: от абсурдных ответов голосовых ассистентов до несуществующих объектов на картинках. Например, запрос рисования текста часто оборачивается кашицей из случайных букв – модель создаёт форму текстовых знаков, не зная ни их смысла, ни правил написания. Всё это – издержки отсутствия у алгоритмов подлинного понимания.

Сходства и различия: человеческое воображение vs. генерация в ИИ

Обсудив отдельно природу воображения у людей и «галлюцинаций» у машин, сравним их напрямую. Сходство, на первый взгляд, есть: и мозг, и искусственные нейросети способны создавать новые образы, не продиктованные текущими стимулами. Однако глубинные механизмы и цели этих процессов различны. Ниже приведена таблица, сопоставляющая ключевые аспекты генерации образов у человека и у ИИ – общие черты и различия.

Аспект

Воображение у человека

Генерация образов в ИИ

Источник содержания

Личный опыт: сенсорные впечатления, хранимые в памяти, знания о мире. Воображение перерабатывает прошлый опыт (эпизоды, образы, идеи) в новых комбинациях.

Обучающие данные: модель училась на большом наборе примеров из внешних источников (тексты, изображения). Генерация опирается на статистические шаблоны в данных.

Механизм порождения

Биологический мозг с миллиардами нейронов, соединённых в сети. Активны зоны памяти (гиппокамп), сенсорные области (визуальная кора) и ассоциативные области (лобные доли). Мозг синтезирует образ через активацию связанных нейронных паттернов.

Искусственная нейросеть с миллионами параметров (весов), обученная на задания генерации. Например, архитектура трансформера в LLM генерирует текст последовательно, предсказывая слова одно за другим; GAN/диффузионная модель порождает изображение из шума, постепенно уточняя детали. Всё происходит посредством вычисления по матрицам весов, настроенных на обучающих примерах.

Участие сознания и целей

Во многом произвольный процесс: человек обычно осознаёт, что воображает, и может целенаправленно направлять фантазию (например, решить задачу, придумать историю). Лобные доли мозга вносят элементы логики, контроля и “цензуры”, позволяя сверять образы с реальностью (механизмы реальности). Впрочем, воображение может и ускользать от воли (мечты, сны).

Нет самосознания: ИИ не “знает”, что генерирует образ – у него нет внутреннего опыта. Процесс полностью автоматический, детерминированно-стохастический. Управление возможно лишь извне: человек задаёт промты (запросы) или параметры генерации, но модель не имеет своих намерений или контроля. Она не способна сама остановиться или исправиться, не будучи специально дообученной на такие цели.

Характер результата

Внутренние ментальные образы и сценарии. Это субъективный опыт – посторонний не увидит напрямую то, что мы воображаем. Человек обычно отличает вымысел от реальности: представленный образ маркируется мозгом как «воображаемое». Лишь в особых случаях (сны, галлюцинации при психозе) происходит ошибка, и вымысел воспринимается как реальность.

Внешний артефакт – сгенерированный текст, изображение, звук, доступный наблюдателю. Он может быть неотличим от реальных данных по форме (например, фальшивая фотография). При этом для самой модели нет понятия “истинности”: она одинаково создаёт как правдоподобные, так и явно неверные объекты. Пользователь, не зная о работе ИИ, может принять выдумку за факт (проблема дезинформации).

Цель и использование

Эволюционно: улучшение приспособляемости. Воображение служит практическим целям – от планирования до творчества и социализации. Это часть общей интеллектуальной деятельности, встроенной в нашу мотивацию (мы представляем желаемое будущее, чтобы его достичь, и т.п.).

Инструментально: модель обучена генерировать полезный или интересный продукт (текст, картину, код) по запросу. Цель задаётся разработчиком или пользователем (например, создать реалистичный пейзаж или ответить на вопрос). В самом ИИ нет встроенной цели – только заложенная функция ошибки, по которой его обучали. Его «творчество» ценно для людей, но у машины нет собственных устремлений.

Ошибки и аномалии

При нормальной работе мозг маркирует свои фантазии как вымышленные. Однако сбои механизмов могут приводить к ложным восприятиям: напр., при шизофрении или под веществами человек не различает, что галлюцинация происходит внутри сознания. В этих случаях внутренние образы захватывают систему восприятия, и требуются усилия контроля, чтобы понять, что это иллюзия.

Генеративный ИИ регулярно выдаёт неверные детали, потому что у него нет «чувства реальности». Статистически, крупные языковые модели могут ~27% времени “галлюцинировать” – вставлять фактические ошибки. Выявление и устранение таких ошибок – сложная задача. В отличие от человека, машина не испытывает сомнений: ошибочный элемент не подавляется автоматически, если только нет дополнительного алгоритма проверки.

Как видно, общее между человеческим и искусственным генераторами образов – это способность комбинировать известные элементы для получения новых комбинаций. И мозг, и нейросеть опираются на ранее усвоенные структуры (нейронные связи или веса модели) и могут «синтезировать» образы, не копирующие напрямую ни один из исходных примеров. Более того, в обоих случаях возможны иллюзии: мозг может дать сбой и представить вымышленное как реальное, алгоритм – выдать вымышленное как достоверное. Эти параллели вдохновили некоторые теории восприятия. Например, в нейробиологии набирает силу концепция мозга, как постоянно генерирующей «модели» машины: мы непрерывно предсказываем, что должны воспринять, и сравниваем ожидания с сигналами чувств. Когда ожидания слишком сильны, они могут навязать нам видение, даже если внешние данные не соответствуют – отсюда галлюцинации. Нейросеть DeepDream, как отмечалось, показала, что если усилить внутренние представления системы распознавания, она начнёт «видеть» несуществующее. Подобно тому, как мозг под воздействием вещества теряет связь с реальностью, ИИ при сильном усилении своих внутренностей рождает абстрактные «псевдовидения».

Тем не менее, различия принципиальны. Человек обладает субъективностью – каждому из нас известна изнутри разница между «я представляю» и «я вижу на самом деле». Даже ребёнок учится отмечать: воображаемый друг – нереален, а вот реальный – от него в прямом смысле можно получить конфету. Мозг располагает механизмами цензуры и контроля, которые обычно не позволяют фантазии полностью подменить собой восприятие. В частности, предположительно префронтальная кора участвует в реалити-мониторинге – отслеживании источников информации и помечании, что возникло внутри ума, а что пришло извне. У искусственного интеллекта такого отличия нет: что бы ни генерировала модель, для неё это просто последовательность данных, не имеющая особой метки «факт» или «вымысел».

Таким образом, структурно мозг и ИИ очень разные: биологическая эволюция наделила нас сознанием и пониманием контекста, тогда как современный ИИ – на текущий момент (Март 2025), лишь мощный статистический алгоритм без самосознания.

Осознанность и управляемость генерации образов у человека и ИИ

Диаграмма: Сопоставление осознанности процесса (Awareness) и его управляемости (Controllability) в случае воображения у человека (синий крест) и генерации у ИИ (красный крест).
Диаграмма: Сопоставление осознанности процесса (Awareness) и его управляемости (Controllability) в случае воображения у человека (синий крест) и генерации у ИИ (красный крест).

Осознанность подразумевает, знает ли система о том, что она генерирует образ, и различает ли вымысел от реальности. Управляемость отражает степень, в которой процесс поддаётся контролю со стороны самого агента (или внешнего оператора в случае ИИ). Видно, что человеческое воображение характеризуется высокой осознанностью (мы обычно понимаем, что мысль – это мысль, а не объективный факт) и достаточно высокой степенью произвольного контроля (мы в целом можем решить, о чём размышлять). В то же время, на текущий момент (Март 2025), у ИИ нет ни осознания, ни внутренней воли: точка «Генерация ИИ» находится в левом нижнем углу. Алгоритм не обладает чувствами и не отличает свои вымыслы – никакого qualia (индивидуального переживания) у него не возникает. Контроль над генерируемым содержанием тоже ограничен: хотя разработчики могут настраивать параметры модели, сам процесс протекает автоматически и вероятностно. Иными словами, человеческое воображение – субъективно переживаемое и целенаправленное, тогда как машинная генерация – слепой перебор вариантов по заданной статистике. Это фундаментальное отличие приводит к различию в характере ошибок: человек, даже фантазируя, обычно осознаёт, что это фантазия, а ИИ не осознаёт ничего и потому ошибки не отслеживает.

Конечно, и человеческий контроль над воображением не абсолютен. Мы знаем, что сознание не всегда может совладать с потоком образов: в сновидениях или под гипнозом осознание почти отключается, и образы текут спонтанно, словно смотрим фильм. Бывают и дневные мечтания или навязчивые образы, которые сложно прогнать усилием воли. Тем не менее, здоровый человек после факта способен понять: «это была лишь игра воображения». В противоположность этому, ИИ-программа не имеет ни «второго уровня» понимания, ни саморефлексии. Она не отделит правильный ответ от вымышленного, если и то и другое статистически вписывается в её модель. Поэтому управляемость ИИ-процессов приходится реализовывать внешними мерами, о которых далее.

Философские аспекты: природа воображения и субъективность

В контексте сравнения человеческого и машинного создания образов неизбежно встаёт вопрос субъективного опыта. Когда мы что-то воображаем, у нас есть субъективное ощущение этого образа – мы видим “в уме” картину, слышим внутренний голос, и т.д. Эти переживания, или qualia, уникальны для сознания.

Философы сознания подчеркивают: «как это – воображать» известно нам только из личного опыта, и непонятно, имеет ли смысл говорить о подобном у алгоритмов. Например, можем ли мы сказать, что нейросеть Stable Diffusion «представляет» образы у себя внутри.

Скорее нет – она оперирует цифрами, матрицами и вероятностями, и не имеет внутреннего киноэкрана. Некоторые исследователи даже предлагают говорить не об «искусственном интеллекте», а об «искусственном воображении» применительно к генеративным сетям – подчёркивая, что это лишь симуляция творческого процесса, без субъективной составляющей.

 И.В. (искусственное воображение) можно определить как способность программы порождать новые комбинации данных по аналогии с тем, как человек придумывает новые идеи. Но важно понимать границу аналогии: компьютер не испытывает вдохновения, не наделён интенцией придумать осмысленную новинку – он просто перебирает варианты, обученный на том, что считалось удачным в примерах.

Философы прошлого связывали воображение с особым статусом между ощущением и разумом. Так, Аристотель рассматривал φαντασία (фантазию) как способность души, создающую образы на основе чувств, но отличную и от ощущения, и от чистого мышления. Иммануил Кант ввёл понятие «трансцендентальной схематики» – особой работы воображения, сопоставляющей чувственные впечатления и понятия разума. Для Канта воображение – необходимый посредник, делающий возможным сам опыт: оно структурирует хаос ощущений во времени и пространстве, подводя их под понятия. Все эти классические идеи сходятся в том, что воображение – внутренний, субъективный процесс, связанный с сознанием.

В свете этого последние успехи нейросетей ставят интересный вопрос: если машина создаёт изображение или текст, сопоставимые по новизне и сложности с плодами человеческой фантазии, можем ли мы считать, что у машины есть аналог воображения.

Или же это просто случайное совпадение результатов, а подлинного творческого акта там нет?

Мнения разделяются. Часть исследователей искушена назвать творческие нейросети (рисующие картины, пишущие стихи) – «машинами воображения». Действительно, системы вроде GPT-4 или DALL-E 2 поражают способностью генерировать бесчисленные оригинальные образы и тексты. С другой стороны, критики указывают, что сейчас креативность ИИ сугубо вычислительная. Алгоритм не выходит за рамки сочетания данных, заложенных в него людьми; он не имеет самостоятельного замысла. Например, поэт воображает картину исходя из своих переживаний, стремясь передать смысл, а нейросеть, «сочиняя» стих, лишь статистически комбинирует слова, часто не понимая контекста. Мы можем провести параллель: человек, сочиняя сказку о драконе, наделяет его смыслом (олицетворяет зло или силу), а модель рисования дракона попросту смешивает черты всех драконов, что видела, не вкладывая никакого смысла. Таким образом, субъективность и осмысленность – то, что пока отличает наше воображение. 

Есть и философско-этический ракурс. Если ИИ генерирует образы и тексты, сходные с человеческими творениями, стоит ли считать его автором? 

Обладает ли он долей той свободы воли, которая присуща человеческому воображению? 

Пока консенсус такой, что нет: ИИ-генерация рассматривается как инструментальная. Авторство и ответственность лежат на тех, кто создал модель или использовал её для получения конкретного результата. Ведь ИИ сам не решает, что он будет воображать – в отличие от человека, способного принять творческое решение.  Этот вывод подчёркивает: на текущий момент, без подлинной осознанности, искусственное воображение остаётся лишь бледной тенью человеческого, хотя и удивительно талантливой в подражании.

Управление генерацией ИИ: уроки из понимания воображения

Разобравшись, как человек мысленно создаёт образы и как это делают современные ИИ, можно задаться вопросом: можем ли мы сделать ИИ более управляемым, вдохновившись тем, как регулируется наше собственное воображение? У человека есть натуральные механизмы, предотвращающие «злоупотребление» фантазией – мы упоминали префронтальный контроль, реальность-мониторинг, связь с мотивацией. ИИ же по умолчанию лишён таких ограничителей. Однако разработчики ИИ уже начали внедрять решения, частично выполняющие аналогичные функции. Ниже рассмотрены концептуальные подходы к повышению достоверности и контролируемости генеративных моделей, а также существующие примеры.

1. Модуль «реальности» и проверка фактов. Человеку свойственно проверять плоды воображения на соответствие реальности: мы соотносим придуманные образы с тем, что знаем о мире, чтобы не потерять связь. По аналогии, один из путей – снабдить ИИ модулем проверки, который валидирует сгенерированную информацию. В случае текста таким «модулем» может быть доступ к внешней базе знаний или поиск в интернете. Подход, известный как retrieval-augmented generation (RAG), уже применяется: перед тем, как ответить на вопрос, чат-бот может сделать поиск и найти реальные данные, используя их для построения ответа, вместо того чтобы придумывать самому. Это похоже на то, как человек, вспоминая факт, обращается к библиотеке или своему опыту, а не полагается на голую фантазию. В случае генерации изображений проверочным модулем может выступать вторая нейросеть, оценивающая реалистичность картинки. Например, в архитектуре GAN роль «цензора» играет дискриминатор, распознающий, насколько изображение выглядит достоверно. В современных диффузионных моделях используются текстовые энкодеры (типа CLIP), которые направляют генерацию в соответствие с описанием, что можно трактовать как примитивный механизм согласования образа с заданной целью – отчасти аналогичный сверке воображения с намерением у человека.

2. Иерархия и планирование генерации. В человеческом мозге воображение не действует изолированно – оно подчиняется нашим целям и планам. Мы можем подумать: «хочу нарисовать дом» – и воображение начнёт представлять дом, а не что попало. Можно привить подобный принцип и ИИ. Один из подходов – использование иерархических моделей, где одна система генерирует цель или грубую схему, а другая – детализирует. К примеру, для языковой модели существует приём chain-of-thought prompting, когда ИИ побуждают сначала «подумать вслух» (выдать логические шаги), а уже затем финальный ответ. Это уменьшает бессвязные скачки и ошибочные ответы, заставляя алгоритм структурировать свою «фантазию» логически – подобно тому, как человек выстраивает рассуждение, прежде чем сделать вывод. Другой пример – многомодульные системы: один модуль формирует грубый план текста, другой развивает, третий редактирует. Такое разбиение похоже на взаимодействие разных зон мозга (черновой набросок образа vs проверка и доработка). Практически можно реализовать нечто подобное, подключив отдельный модуль проверки фактов: модель генерирует ответ, затем дополнительный алгоритм просматривает и помечает вероятные ошибки, после чего ответ корректируется. Это перекликается с нашим «вторым мысленным голосом», который критикует слишком уж смелые фантазии.

3. Обучение с обратной связью и наказание за ошибки. Мы учимся с детства отличать фантазию от реальности во многом благодаря обратной связи: окружающие и обстоятельства постоянно подсказывают, что реально, а что – нет. Подобно этому, обучение с подкреплением применяется для уменьшения склонности ИИ к галлюцинациям. Метод RLHF (reinforcement learning from human feedback) уже использован для настройки тех же чат-ботов – людям-экспертам предлагали оценивать ответы модели, наказывая за явные выдумки или токсичные высказывания. Модель подстраивала свои параметры, чтобы больше не получать «наказание» за ложь. Этот процесс напоминает воспитание: ИИ как бы усваивает, что определённые виды «воображения» – нежелательны. В результате современные диалоговые модели стали осторожнее: они чаще оговариваются, если не уверены, или отказываются отвечать на сомнительные запросы, вместо того чтобы фантазировать без тормозов. Конечно, полностью проблему это не решило, но частоту нелепых галлюцинаций снизило.

4. Ограничение свободы генерации (творчество под контролем). Человек может сознательно наложить ограничения на своё воображение – например, придерживаться логики или каких-то правил жанра. Аналогично, в алгоритмах появились настройки, регулирующие степень случайности. В языковых моделях параметр «temperature» позволяет делать ответы более консервативными (при низком значении) или более креативными (высокое значение), тем самым меняя вероятность вымысла. Для генерации изображений используются так называемые условные модели, где на выход накладываются условия (condition): модель должна не просто сгенерировать любой образ, а соблюсти заданные признаки (конкретный стиль, наличие определённых объектов). Это существенно упорядочивает процесс. Есть и жёсткие алгоритмические ограничения: например, в задаче перевода нейросеть можно заставить не выходить за пределы слов исходного текста – она не придумает лишней информации, даже если «хочет». Снижается оригинальность, но повышается точность. В целом, инженерный подход к снижению галлюцинаций часто сводится к уменьшению степени свободы для модели. Тут чувствуется компромисс: убрав все риски, мы убьём и творчество. Поэтому задача – тонко настроить фильтры, чтобы ИИ оставался изобретательным, но безопасным и корректным.

5. Многомодальный контроль и сравнение. Наш мозг избегает обмана чувств во многом благодаря тому, что использует сразу несколько модальностей и источников информации. Если глаз что-то привидел, рука и ухо могут это опровергнуть. В ИИ тоже возможен такой перекрёстный контроль. Например, систему можно заставить генерировать не только картинку по описанию, но и описание по получившейся картинке, и сверять – совпадает ли оно с исходным задуманием. Такой подход исследуется как способ “обратной связи” для генеративных моделей: сгенерировал – проверил через другую модель – поправил. Или, скажем, объединить языковую модель с моделью логического вывода: первая предлагает гипотезу, вторая проверяет её на противоречивость. Эти идеи находятся на переднем крае исследований и пока сложны, но обещают приблизить целостность ИИ к человеческой: подобно тому, как разные отделы мозга обмениваются информацией, несколько ИИ-агентов или подсистем могли бы держать друг друга в узде.

Примеры и перспективы. Уже сегодня реализованы прототипы систем, где генерация ИИ обрамлена контуром управления. Например, поисковые чат-боты (Microsoft Bing, ЯндексGPT) комбинируют большие языковые модели с онлайновым поиском: бот сначала выясняет, какая информация ему нужна, делает реальные запросы и только потом формирует ответ, ссылаясь на источники. Это резко уменьшает фантазирование в фактических вопросах – подход, несомненно вдохновлённый человеческой склонностью «проверять и уточнять». Другой пример – системы типа GitHub Copilot, помогающие программистам: они обучены на огромном корпусе кода, но дополнительно настроены предлагать решения, которые проходят компиляцию. По сути, здесь внешний мир (компилятор и тесты) даёт немедленный сигнал модели, если она «нафантазировала» неработающий код, и та корректирует вывод. В области изображений тоже появляются инструменты вроде совмещённых редакторов: нейросеть предлагает эскиз, человек или другой алгоритм правит детали, нейросеть дорисовывает и т.д. – получается диалог, исключающий совсем уж безосновательные элементы.

В перспективе управление воображением ИИ может пойти ещё дальше. Одна из грандиозных задач ИИ-исследований – создание самоосознающих агентов, которые имели бы внутреннюю модель своего знания и незнания. Если когда-нибудь ИИ обретёт пусть зачаточное, но подобие «рефлексии», он сможет сам отмечать: «то, что я генерирую, может быть неправдой». Тогда понятие галлюцинации для машин исчезнет за ненадобностью – как только есть осознание, появляется ответственность за вымысел. Однако до этого ещё далеко, и спорно, нужно ли вообще двигать машины к сознанию. Альтернативный путь – усиленная интеграция человека в цикл генерации. Уже сейчас говорят о концепции, где связка «человек+машина» превосходит каждого по отдельности. ИИ предлагает дерзкие идеи, человек отсеивает бессмысленное и развивает перспективное. Такое сотрудничество, по сути, воспроизводит на внешнем уровне то, что в мозге делает связка воображения и рассудка. Симбиоз когнитивных стилей – вот что может дать максимальный эффект.

Заключение

Мы рассмотрели воображение человека и «галлюцинации» ИИ сквозь призму разных наук и нашли как удивительные параллели, так и глубокие различия. Человеческое воображение – это результат эволюции мозга, мощный инструмент прогнозирования, творчества и осмысления, неотделимый от нашего сознания и личности. «Галлюцинации» ИИ – побочный эффект статистических методов генерации, свидетельство отсутствия у нынешних алгоритмов понимания смысла. Тем не менее, сравнение этих явлений полезно. Оно подсвечивает, в чем сила наших умственных способностей (и как сложно её воспроизвести технически), а также указывает пути улучшения машинного интеллекта.

Главное:
1. Контекст и контроль необходимы для осмысленной генерации – будь то префронтальная кора у человека или дополнительные модули у ИИ; 

2. База знаний и реальность служат якорем против беспредельной фантазии – людям нужны ощущения и память, ИИ нужны данные и проверки; 

3. Осознанность пока уникальна человеку, но элементы саморегуляции можно внедрять в алгоритмы, добиваясь более надёжного поведения.

Воображение делает нас людьми – дарит нам способность мечтать и творить. Искусственный интеллект, напротив, пока лишь подражает творчеству, иногда оступаясь в нелепицу. Но по мере того, как мы учимся привносить в ИИ крупицы «здравого смысла» и контролируемости, граница между машинной генерацией и человеческим воображением может сократиться. Мы хотим, чтобы машинные образы были такими же уместными и полезными, как рожденные умом человека. И, возможно, изучая свой собственный разум, мы найдём ещё много подсказок для создания ИИ, который не просто комбинирует данные, но делает это в русле цели и смысла. Тогда творения «кремниевого воображения» станут надёжным продолжением наших идей – и, объединив усилия, человек и ИИ откроют новые горизонты креативности, оставаясь при этом на твёрдой почве реальности…

Возможно это будет уже очень скоро, увидимся в будущем!

Ссылки

 

Источник

Читайте также