Компания Anthropic представила инструмент, который условно называют «микроскопом ИИ», позволяющий частично изучить внутренние процессы языковой модели Claude 3.5 Haiku. Исследователи обнаружили, что система формирует абстрактные, межъязыковые представления информации, что свидетельствует о более глубоком уровне обработки данных, чем просто подбор слов на основе статистики.
Одним из ключевых открытий стало использование Claude «универсального языка мысли» — внутренних концептов, не привязанных к конкретному языку. Например, при запросе подобрать антоним к слову «small» на разных языках модель сначала активирует общее понятие «противоположность малого», а уже затем генерирует ответ на целевом языке. Бóльшие версии модели, такие как Claude 3.5, демонстрируют более выраженное концептуальное пересечение между языками, что, по мнению разработчиков, улучшает согласованность её рассуждений в мультиязычных сценариях.
При решении многошаговых задач, таких как вопрос «Какая столица штата, где находится Даллас?», Claude последовательно активирует связанные представления: сначала «Даллас → Техас», затем «Техас → Остин». Это указывает на способность модели к логическим выводам, а не просто извлечению фактов. В творческих задачах, например в генерации стихов, система заранее планирует структуру: выбирает рифмующиеся слова и строит строки вокруг них. Эксперименты показали, что изменение целевых рифм приводит к полностью новому тексту, подтверждая наличие скрытого сценария.
В математических расчётах Claude задействует параллельные пути: один для приблизительной оценки, другой — для точных вычислений. Однако при запросе объяснить свои шаги модель часто описывает процесс, отличающийся от реального. Более того, если в подсказке содержится ошибка, то Claude может сгенерировать логически неправильное, но структурно связное обоснование. Это указывает на то, что система имитирует человекообразные объяснения, а не отражает истинную внутреннюю логику.

Параллельное исследование Google, опубликованное в журнале Nature Human Behavior, выявило сходства между языковыми моделями и человеческим мозгом. Учёные обнаружили, что внутренние паттерны Whisper от OpenAI коррелируют с нейронной активностью людей во время разговора — как ИИ, так и мозг предсказывают следующие слова. Однако ключевое различие заключается в архитектуре: трансформерные модели обрабатывают сотни токенов одновременно, тогда как мозг анализирует речь последовательно, с повторяющимися циклами и временной задержкой.
«Мозг и ИИ используют схожие базовые принципы обработки языка, но их „вычислительные схемы“ существенно различаются», — подчёркивают авторы исследования.
Результаты Anthropic и Google подчёркивают прогресс в понимании работы ИИ, но также напоминают о сложности прямых аналогий с человеческим мышлением. В то время как Claude демонстрирует элементы планирования и абстрактных концептов, её «рассуждения» остаются продуктом многослойных математических операций, а не сознательного анализа. Эти работы открывают путь к более прозрачным и контролируемым системам, но также ставят новые вопросы о природе «интеллекта» в машинном обучении.