Компания Anthropic анонсировала инструмент, условно именуемый «микроскоп ИИ», позволяющий частично исследовать внутренние механизмы работы языковой модели Claude 3.5 Haiku. Анализ показал, что система генерирует абстрактные, межъязыковые представления информации, что говорит о более глубоком уровне обработки данных, чем простое статистическое соответствие слов.
Среди ключевых выводов — использование Claude так называемого «универсального языка мысли»: внутренних концептов, независимых от конкретного языка. Например, при запросе на подбор антонима для слова «small» на разных языках, модель вначале активирует общее понятие «противоположность малого», а затем даёт ответ на нужном языке. Более крупные версии модели, такие как Claude 3.5, демонстрируют более выраженное концептуальное пересечение между языками, что, по мнению разработчиков, оптимизирует согласованность её рассуждений в многоязычных сценариях.

При решении комплексных задач, например, таких как вопрос «Какая столица штата, где находится Даллас?», Claude пошагово активирует связанные концепции: сначала «Даллас → Техас», затем «Техас → Остин». Это указывает на способность модели к логическим выводам, а не просто извлечению фактов. В креативных задачах, таких как создание стихотворений, система заранее планирует структуру: выбирает рифмующиеся слова и строит строки вокруг них. Эксперименты показали, что изменение целевых рифм приводит к полностью новому тексту, подтверждая наличие скрытого замысла.
В математических вычислениях Claude использует параллельные подходы: один для грубой оценки, другой — для точных вычислений. Тем не менее, при запросе объяснить свои шаги, модель часто описывает процесс, отличающийся от действительного. Более того, если в подсказке содержится ошибка, то Claude может создать логически неверное, но структурно связное обоснование. Это говорит о том, что система имитирует объяснения, схожие с человеческими, но не отражает истинную внутреннюю логику.

Аналогичное исследование Google, представленное в журнале Nature Human Behavior, выявило схожие черты между языковыми моделями и человеческим мозгом. Учёные обнаружили, что внутренние паттерны Whisper от OpenAI коррелируют с нейронной активностью людей во время общения — как ИИ, так и мозг предсказывают следующие слова. Однако ключевое различие заключается в архитектуре: трансформерные модели могут обрабатывать сотни токенов одновременно, тогда как мозг анализирует речь последовательно, с циклическими повторениями и временной задержкой.
«Мозг и ИИ используют схожие базовые принципы обработки языка, однако их „вычислительные схемы“ заметно отличаются», — отмечают авторы исследования.
Итоги исследований Anthropic и Google подчёркивают достижения в понимании работы ИИ, но также напоминают о сложности проведения прямых аналогий с человеческим мышлением. Claude демонстрирует элементы планирования и абстрактного мышления, однако её «рассуждения» остаются результатом многослойных математических операций, а не осознанного анализа. Эти исследования открывают путь к более прозрачным и управляемым системам, но также ставят новые вопросы о природе «интеллекта» в машинном обучении.
Источник: iXBT