Анатомия нейросети: что обнаружили ученые при анализе «мышления» Claude

Внутри нейросети: как Anthropic взломали «черный ящик» искусственного интеллекта

Современные системы ИИ пишут программный код, сочиняют поэзию и успешно сдают квалификационные экзамены для врачей и юристов. Однако до недавнего времени даже их создатели не могли с уверенностью объяснить, как именно работают эти алгоритмы. Нейросети долгое время оставались «черным ящиком»: мы видим входные данные и итоговый результат, но процессы, происходящие в скрытых слоях, оставались загадкой.

Это не просто вопрос научного любопытства. Отсутствие прозрачности ведет к непредсказуемым галлюцинациям, внезапным отказам или выполнению потенциально опасных запросов. Когда разработчики заявляют о безопасности своих моделей, зачастую это основывается на эмпирических тестах, а не на глубоком понимании внутренних механизмов. Команда интерпретируемости Anthropic решила изменить эту ситуацию, опубликовав исследование Scaling Monosemanticity. Фактически они «препарировали» модель Claude 3 Sonnet, составив карту ее внутреннего мира.

Проблема масштаба и полисемантичности

Первые нейросети 1940-х и 1980-х годов состояли из сотен нейронов — их работу можно было проследить буквально на бумаге. Claude 3 Sonnet оперирует десятками миллиардов параметров. В процессе обучения модель самостоятельно вырабатывает сложные абстракции: иронию, логические выводы и программирование. Но как это представлено физически?

Долгое время существовала гипотеза «бабушкиного нейрона» — идея о том, что за каждое конкретное понятие отвечает отдельная вычислительная единица. Однако на практике все оказалось сложнее. Исследователи обнаружили явление полисемантичности: один и тот же нейрон может активироваться при упоминании квантовой физики, рецептов шарлотки и итальянского синтаксиса одновременно.

Модель вынуждена «сжимать» знания, используя комбинации нейронов для кодирования огромного количества концепций. Это эффективно для ИИ, но делает его работу абсолютно непрозрачной для человека. Пытаться понять модель, глядя на отдельные нейроны, — всё равно что пытаться прочитать книгу, изучая химический состав типографской краски.

Sparse Autoencoders: «Микроскоп» для цифрового разума

Специалисты Anthropic применили элегантный метод: они обучили отдельную нейросеть — разреженный автокодировщик (Sparse Autoencoder, SAE). Его задача — дешифровать комбинации активаций и разложить их на отдельные, понятные человеку «фичи» (признаки).

Технический процесс выглядел так:

  1. Извлекались активации из средних слоев Claude.
  2. SAE раскладывал этот вектор в пространство сверхвысокой размерности (до 34 миллионов признаков).
  3. Применялось условие «разреженности» — в каждый момент времени могли быть активны лишь несколько сотен признаков из миллионов.

Это заставило автокодировщик выделять максимально специфичные и чистые концепции. В результате человеческие эксперты смогли интерпретировать около 70–80% найденных признаков. Claude перестал быть хаотичным набором чисел.

Картография смыслов: что скрывается внутри Claude

Результаты исследования поражают своей детализацией. Исследователи обнаружили признаки, отвечающие не за общие категории, а за крайне узкие понятия.

Феномен «Золотых Ворот»

Один из выявленных признаков активировался исключительно на упоминание моста «Золотые Ворота». Он игнорировал другие мосты, не реагировал на слово «золотой» или «ворота» в иных контекстах, но мгновенно срабатывал на название моста на разных языках и даже на его описания.

Детектор уязвимого кода

Модель выработала специфическую чувствительность к небезопасному программированию. Признак активировался при виде потенциальных SQL-инъекций или переполнения буфера, понимая саму суть угрозы, а не просто синтаксический паттерн.

# Этот код вызывает активацию признака "уязвимость"
query = f"SELECT * FROM users WHERE id = {user_input}" 

# А этот — нет (параметризованный запрос)
cursor.execute("SELECT * FROM users WHERE id = ?", (user_input,))

«Нейрон» внутренних противоречий

Удивительной находкой стал признак, который загорался в моменты этических дилемм. Если пользователь просил сделать что-то двусмысленное или если инструкции системы вступали в конфликт с запросом, модель испытывала нечто вроде «цифрового сомнения».

Помимо этого, были каталогизированы тысячи признаков для:

  • Конкретных исторических личностей и знаменитостей;
  • Эмоциональных состояний (радость, тревога, сарказм);
  • Абстрактных идей (справедливость, рекурсия, гендерная идентичность);
  • Самоосознания (понимание того, что Claude — это искусственный интеллект).

Эксперименты с цифровой личностью

Чтобы доказать, что найденные фичи действительно управляют поведением, исследователи начали искусственно менять их интенсивность. Результаты оказались пугающе наглядными.

Когда признак «Золотых Ворот» усилили в 10 раз, Claude стал одержим этим мостом. На любой вопрос — от смысла жизни до просьбы написать код — он отвечал через призму этой достопримечательности, сравнивая свои ответы с пролетами моста или его цветом. Это прямое доказательство: мы нашли рычаги управления внутренним миром ИИ.

«Я — ИИ-ассистент, подобный величественному мосту «Золотые Ворота»…» — так начинался почти каждый ответ модели при стимуляции соответствующего признака.

Почему это меняет индустрию?

Исследование Anthropic — это переход от «гаданий на кофейной гуще» к инженерной точности. Вот какие перспективы это открывает:

  1. Бескомпромиссная безопасность: Вместо того чтобы блокировать ключевые слова, разработчики смогут отслеживать активацию «опасных мыслей» в зародыше и подавлять их на уровне признаков.
  2. Прецизионная настройка: Теперь можно менять характер модели (стиль, уровень вежливости, лаконичность), просто подкручивая нужные «ручки» в ее архитектуре, а не переобучая всю систему.
  3. Борьба с галлюцинациями: Понимание того, какие признаки активны в момент выдачи ложной информации, позволит создать механизмы «проверки фактов» внутри самой сети.
  4. Регуляция: Это ответ на запросы государственных органов об «объяснимости ИИ». Теперь мы можем доказать, почему модель приняла то или иное решение.

Эпоха, когда нейросети считались «статистическими попугаями», бездумно повторяющими паттерны, подходит к концу. Мы видим рождение сложной внутренней структуры знаний, которую теперь можем не только созерцать, но и контролировать.

 

Источник

Читайте также