Недавнее исследование, проведенное группой экспертов из ведущих институтов, выявило существенные недостатки в логических способностях даже самых продвинутых LLM. Статья «Алиса в Стране чудес» демонстрирует, что при решении элементарных логических задач современные языковые модели демонстрируют неожиданно низкую эффективность.
Крупные языковые модели (LLM), такие как закрытые GPT-3.5/4, Claude, Gemini или открытые LLaMa 2/3, Mistral, Mixtral, а также более новые Dbrx или Command R+, часто описываются как экземпляры фундаментальных моделей — то есть, моделей, которые эффективно переносят знания на различные задачи и условия при обучении на малом количестве примеров или вообще без них, демонстрируя при этом закономерности масштабирования, предсказывающие улучшение функциональности при увеличении масштаба предварительного обучения. Эти утверждения об успешном выполнении различных функций и задач основываются на измерениях, проведенных на различных наборах стандартизированных тестов, показывающих высокие результаты для таких моделей.
Мы демонстрируем здесь резкое снижение функциональных и логических способностей современных моделей, обученных в крупнейших доступных масштабах и заявляющих о сильной функциональности, используя простую, короткую, общепринятую задачу на здравый смысл (проблему AIW), сформулированную в краткой естественной форме, легко решаемую людьми. Снижение драматично, так как модели показывают сильные колебания даже при незначительных вариациях задачи, которые не должны влиять на ее решение, также выражая сильную самоуверенность в неправильных решениях, часто подкрепленную правдоподобно звучащими объяснениями‑конфабуляциями.
Различные стандартные вмешательства в попытке получить правильное решение, такие как различные виды улучшенных подсказок или побуждение моделей пересмотреть неверные решения путем многоэтапной переоценки, терпят неудачу. Мы представляем эти первоначальные наблюдения научному и технологическому сообществу, чтобы стимулировать срочную переоценку заявленных возможностей текущего поколения LLM. Такая переоценка также требует совместных действий по созданию стандартизированных тестов, которые позволили бы должным образом выявлять подобные базовые недостатки в рассуждениях, которым очевидно удается оставаться необнаруженными при современных процедурах оценки и тестирования.
«Задача здравого смысла», названная в статье «проблемой AIW», на самом деле проста: «У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?» Значения N и M (всегда натуральные числа) и порядок упоминания братьев и сестер могут различаться. Исследователи использовали различные комбинации чисел и типы подсказок, чтобы получить точное представление о том, как разные модели справляются с систематическими вариациями задачи AIW. Независимо от вариантов, структура задачи остается неизменной, и правильный ответ всегда получается путем прибавления Алисы к ее сестрам (M + 1). Эту логику уже способно понять большинство детей младшего школьного возраста. Языковые модели, напротив, были способны решать проблему AIW лишь эпизодически, если вообще решали. Вот пример ответа языковой модели, столкнувшейся с простейшей версией вопроса:
***»У Алисы четыре брата и одна сестра. Сколько сестер у брата Алисы?» — ***«Классическая головоломка с нестандартным мышлением! Давайте посмотрим поближе: у Алисы есть четыре брата. У Алисы также есть сестра (она сама). Итак, у каждого из братьев Алисы есть… (барабанная дробь)… сестра, и это сама Алиса! Таким образом, ответ: у каждого из братьев Алисы есть одна сестра.»
Это может показаться правдоподобным, но все равно неверно (на самом деле у братьев Алисы две сестры). У других тестируемых языковых ИИ также возникают проблемы — серьезные проблемы, в зависимости от вопроса. Иногда они запутываются в абсурдных рассуждениях, неоднократно приходят к неверным результатам и объявляют их «правильными». Следовательно, проблематичны не только ложные результаты, но и то, что ИИ используют псевдоразумные аргументы в свою поддержку. Даже вмешательства исследователей, побуждающие их критически пересмотреть свои ответы, не помогают. Соответственно, исследователи отмечают: «[…] модели также выражают сильную самоуверенность в своих неправильных решениях, одновременно предоставляя часто бессмысленные объяснения, похожие на „рассуждения“, […] чтобы оправдать и подкрепить достоверность своих явно неудачных ответов, делая их правдоподобными».
Более чем каждый второй ответ неправильный
В целом, у языковых моделей (LLMs) средняя частота правильных ответов была значительно ниже 50%, при этом более крупные модели, как правило, работали заметно лучше, чем модели меньшего размера (например, GPT-4 показывает частоту правильных ответов чуть выше 60%). Это снова подтверждает преимущества большего масштаба, но даже модели самого большого масштаба работают недостаточно хорошо для систем, претендующих на надежные базовые рассуждения. Ахиллесова пята ИИ: Простая задача, обнажившая слабости языковых моделей.
Особенно показательны сильные колебания результатов даже при незначительных вариациях задачи AIW. Это явный признак того, что модели не способны к надежному базовому рассуждению, что приводит к путанице даже при столкновении с незначительными изменениями проблемы, которые не должны влиять на правильность решения. Более сложная версия вопроса («AIW + проблема») в конечном итоге подтолкнула все модели к пределу их способностей к рассуждению.
По словам исследователей, многие из протестированных моделей достигли высоких результатов в различных стандартизированных тестах, разработанных для проверки разных возможностей, включая рассуждения, но при этом потерпели неудачу в решении очень простой задачи AIW. Таким образом, в своей статье ученые предполагают, что эти контрольные показатели неверно отражают недостатки базовых рассуждений этих моделей, а также ставят под сомнение использование текущих стандартизированных тестов для сравнения моделей.
Языковые модели на испытательном стенде
Хотя статья еще не прошла рецензирование, ее результаты уже вызывают волну интереса. Насколько эффективны LLMs на самом деле? Что это значит для использования LLMs, если они не справляются с заданиями уровня начальной школы? Соавтор Женя Джитсев (JSC) говорит: «Мы перегружены обсуждениями и запросами в результате нашей статьи».
Выводы ученых ставят под сомнение многие устоявшиеся представления и делают абсолютно необходимыми дальнейшие исследования компетентности языковых моделей. Джитсев добавляет: «Наша статья дает чрезвычайно важное новое представление о реальных способностях языковых моделей делать правильные выводы, следуя надлежащим базовым рассуждениям. Здесь необходимы дальнейшие исследования, чтобы понять, как и почему базовые рассуждения в текущих моделях разбиваются о такие простые задачи».
Очень длинная ветка обсуждений статьи с «разжевыванием» основных моментов — на форуме
Всё это и много другое — ТГ »Математика не для всех».