Способны ли нейросети к самопознанию?

Даже их разработчики не до конца понимают, как функционируют масштабные языковые модели. Поэтапно учёные выявляют фрагментарные алгоритмы: нейросети задействуют уникальные активационные сигналы для распознавания знакомых и посторонних лиц, проверки достоверности высказываний и кодирования пространственно-временных параметров. Но осознают ли сами модели свои внутренние представления? Могут ли они дать отчёт о собственном «мысленном» процессе?

Способны ли нейросети к самопознанию?

Эксперименты по внедрению концептов

Ключевым выводом недавней работы Anthropic стало неожиданное: при всей архитектурной изощрённости современные LLM демонстрируют крайне ненадёжную интроспекцию — их способность к системному самоанализу остаётся на уровне эпизодических фрагментов.

Для оценки «самосознания» исследователи применили метод «внедрения концепта». Сначала они сравнивали нейронную активность на один и тот же текст в разном регистре, получая разницу в виде вектора, условно кодирующего заданную идею (например, «ощущение громкого крика»). Затем этот вектор искусственно усиливали внутри модели — словно «вкладывая» мысль — и проверяли, заметит ли нейросеть подобное вмешательство.

Результаты внедрения концептов

Нестабильность результатов

Эксперименты дали смешанные результаты. В отдельных случаях модели действительно реагировали на внедрённый вектор: после «вкладывания» концепта заглавного регистра они могли упомянуть слова «ГРОМКО» или «КРИЧИТ», хотя в изначальном задании об этом не шла речь.

Однако главная проблема — крайне низкая воспроизводимость. Лишь около 20 % попыток приводили к корректному опознанию концепта даже при оптимальных условиях. При незначительных сдвигах во времени или на ином слое активации эффект полностью исчезал. Повторные запросы на объяснение или обоснование ответа приводили к хаотичным, непоследовательным реакциям.

Итоги исследования

Таким образом, учёные констатируют наличие у LLM некоей функциональной «интроспективной реакции», но подчёркивают её фрагментарность и ненадёжность. Вероятно, эти эффекты обусловлены примитивными «модулями проверки согласованности», возникшими в процессе обучения, однако их работа остаётся поверхностной и узкоспециализированной.

Читайте свежие материалы Cloud4Y на сайте и присоединяйтесь к нашему Telegram-каналу.

 

Источник

Читайте также