Логический ориентир для искусственного интеллекта

Международная команда исследователей из Сколковского института науки и технологий, МФТИ, AI Research Institute (AIRI) и Université Paris Cité предложила изящный метод верификации логических рассуждений больших языковых моделей. Вместо оценки лишь конечного ответа учёные анализируют внутренние паттерны механизма внимания, выявляя «головы», ответственные за проверку логической непротиворечивости. Разработанный ими QK-score позволяет с высокой точностью определять, как модель следует законам логики на каждом этапе своей цепочки рассуждений, повышая прозрачность и надёжность ИИ. Результаты представлены на основном треке EMNLP 2025 и доступны в препринте на arXiv.

Хотя LLM – такие как ChatGPT и LLaMA – демонстрируют впечатляющую способность генерировать связный текст, они зачастую допускают ошибки при многоступенчатом логическом выводе: сбиваются с хода, противоречат сами себе или приходят к абсурдным заключениям. Подход «цепочки мыслей» (Chain of Thought) улучшил ситуацию, заставляя модель выдавать промежуточные шаги, но это лишь смоделировало процесс рассуждения без гарантии его корректности. Оставалась необходимость эффективного механизма контроля логических переходов внутри модели, а не только проверки итогового ответа.

Для этого исследователи обратились к трансформерной архитектуре, в которой десятки «голов внимания» можно считать экспертами по разным задачам: синтаксису, семантике, кореференциям и т. д. Некоторые из них могут даже конфликтовать друг с другом, снижая общую эффективность модели. Цель учёных – выявить именно те головы, которые специализируются на проверке логической корректности, и предложить быстрый инструмент измерения их активности.

Метод основан на анализе взаимодействия «запросов» (Q) и «ключей» (K) в каждой голове внимания. При обработке текста в модели генерируются матрицы Q и K для разных фрагментов: умножение этих матриц фиксирует силу связи между исходным утверждением и потенциальными ответами. Учёные предположили, что логическая состоятельность отражается в интенсивности этих связей. QK-score вычисляет, насколько точно сила Q–K-взаимодействия предсказывает правильный логический вывод, позволяя выделить ключевые головы внимания.

В масштабных экспериментах на моделях с параметрами от 1,5 до 70 млрд исследователи подтвердили свою гипотезу: в каждой сети существуют специализированные головы, хорошо справляющиеся с логическими выводами. QK-score показал большую точность оценки логики, чем стандартный анализ вероятностей финального ответа, и сохранил устойчивость даже при добавлении в задачи большого числа нерелевантных фактов. Это доказывает, что метод реагирует именно на логическую структуру, а не на поверхностные маркеры текста.

Логический ориентир для искусственного интеллекта
Рисунок: Визуализация принципа работы QK-score – совпадение «запросов» (Q) и «ключей» (K) в специализированной голове внимания для оценки логического вывода.

Лаида Кушнарева, старший академический консультант Huawei:
«Чтобы подтвердить значимость «топовых» голов с высоким QK-score, мы провели следующий эксперимент. Сначала вычислили QK-score всех голов и временно «отключили» те, у которых он оказался максимальным (обнулили их выходы). Затем модель решала логические задачи, и доля верных ответов заметно уменьшилась по сравнению с аналогичным тестом, где мы отключали случайный набор голов в том же количестве. Это наглядно доказало, что высокие QK-score действительно указывают на головы, критичные для логических рассуждений.»

Само отключение использовалось лишь в качестве контрольного эксперимента: в практическом применении QK-score рассчитывается за один проход по данным без изменения весов или архитектуры модели.

Предыдущие методы исследования внутренних компонентов LLM – поочерёдное «выключение» разных частей сети – требовали колоссальных вычислительных ресурсов и были непригодны для крупнейших моделей. Новый подход обходит это ограничение, анализируя только Q–K-взаимодействия за один проход и сохраняя возможность масштабирования на сотни миллиардов параметров.

Эдуард Тульчинский, аспирант Сколтеха:
«Меня впечатлило, что доля голов, обрабатывающих одни и те же правила формальной логики, оказалась сопоставима в разных моделях. При этом внутри одной модели их количество сильно варьировалось и не всегда соотносилось с нашими интуитивными представлениями о сложности задачи.»

Выявление логически значимых голов открывает путь к улучшению качества генерируемых ответов. Особенно это актуально для математических вычислений и любых приложений, требующих строгого рассуждения: на каждом шаге можно отсеивать кандидатов продолжения, у которых QK-score ниже порога. При этом модель остаётся неизменной, достаточно лишь считывать встроенные представления.

Кроме повышения точности, метод QK-score существенно улучшает интерпретируемость моделей, что важно для надёжности и безопасности ИИ-систем.

Анастасия Вознюк, студентка МФТИ:
«Мы расширили существующие датасеты логических задач и проверили QK-score на разных типах рассуждений. Даже при увеличении сложности метод по-прежнему опережал стандартную оценку на основе вероятностей финального ответа.»

В итоге исследование углубляет понимание того, как трансформеры обрабатывают абстрактную информацию и строят выводы. На практике QK-score может лечь в основу систем нового поколения, способных не только генерировать ответы, но и оценивать степень своей уверенности в них. Это критически важно для юриспруденции, медицины и научных исследований, где цена «галлюцинации» нейросети чрезвычайно высока.

В дальнейших работах команда планирует адаптировать QK-score для узкоспециализированных логических задач и интегрировать его в процесс генерации, чтобы модель могла корректировать рассуждения «на лету».

Ссылка на статью: Eduard Tulchinskii, Anastasia Voznyuk, Laida Kushnareva, Andrei Andriiainen, Irina Piontkovskaya, Evgeny Burnaev, Serguei Barannikov, Quantifying Logical Consistency in Transformers via Query-Key Alignment, arXiv:2502.17017v1 [cs.CL], 24 февраля 2025.

 

Источник

Читайте также