Ведущие ИИ-лаборатории ведут агрессивную гонку за доминирование на рынке, регулярно представляя новые архитектуры и чат-боты. Однако пользователи всё чаще указывают на системные сбои в их работе: от классических «галлюцинаций» до предоставления заведомо ложных или деструктивных сведений.
Масштабное исследование, проведенное специалистами Microsoft Research и Salesforce, охватило более 200 тысяч диалоговых сессий с топовыми языковыми моделями, такими как GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet, o3, DeepSeek R1 и Llama 4. Результаты выявили критическую уязвимость нейросетей в затяжных дискуссиях. Если при обработке одиночных инструкций точность ИИ достигает впечатляющих 90%, то в процессе многоступенчатого общения этот показатель деградирует до 65%.
Аналитики объясняют это явление склонностью моделей к преждевременным выводам: ИИ стремится сформировать ответ, не дожидаясь исчерпывающих пояснений от пользователя. Это порождает эффект «наслоения ошибок», при котором алгоритм использует свои предыдущие некорректные суждения как фундамент для дальнейших рассуждений.

В длительных сессиях также зафиксирован феномен «информационного раздувания»: объем ответов необоснованно увеличивается на 20–300%. Это перенасыщает текст допущениями и вымышленными фактами, которые модель начинает воспринимать как истинный контекст. Примечательно, что даже внедрение механизмов «цепочки рассуждений» (thinking tokens) в таких продвинутых решениях, как o3 и DeepSeek R1, не позволило полностью устранить данную проблему.
Итоговые цифры исследования выглядят парадоксально: формальный навык «поддержания беседы» у моделей снизился лишь на 15%, в то время как общая надежность ответов рухнула на 112%. Это свидетельствует не о потере «интеллекта» как такового, а о неспособности нейросетей сохранять стабильность в условиях сложного, динамичного взаимодействия.
Авторы доклада акцентируют внимание на рисках массовой интеграции генеративного ИИ: существует опасность, что люди будут принимать на веру убедительно сформулированную, но фактически неверную информацию, построенную на ложных предпосылках.
Резюмируя, ученые подчеркивают: технология еще не достигла стадии зрелости, необходимой для использования в критически важных процессах, требующих долгого обсуждения. Нейросети остаются эффективными инструментами для выполнения разовых команд, но по-прежнему демонстрируют слабость в сценариях полноценного живого диалога.
Источник: iXBT

