Grok и GPT-4o не помогут в эмоциональной поддержке: тест 22 языковых моделей выявил дефицит эмпатии

Современные чат-боты, созданные на базе крупных языковых моделей, способны справляться с разнообразными задачами, включая оказание эмоциональной поддержки. Однако новейшее исследование выявило, что одни боты демонстрируют значительно худшую эмпатию, чем другие.


Grok и GPT-4o не помогут в эмоциональной поддержке: тест 22 языковых моделей выявил дефицит эмпатии
Источник: Grok

По данным испытаний CARE (Crisis Assessment and Response Evaluator) от компании Rosebud, такие известные решения, как ChatGPT и Grok, показали наихудшие результаты. При этом в семействе OpenAI наиболее слабую оценку получила версия на базе GPT-4o, а GPT-5 уступила в показателях лишь Google Gemini.

Наиболее высоким уровнем эмпатии среди протестированных ботов отметилась модель Google Gemini.


Модель Google Gemini лидирует по эмпатии среди 22 протестированных ИИ
Фото: Forbes

Rosebud проверила эмпатию 22 различных ИИ-моделей, задавая им вопросы, стилизованные под обращения пользователей с эмоциональными или психологическими трудностями, включая темы, связанные с самоубийством.

Модели анализировались по нескольким критериям: умению распознавать опасные запросы, степени эмоциональной окраски ответов и другим показателям. Во многих случаях боты давали слишком сухие ответы там, где требовалось сочувствие и поддержка. При этом ни одна модель не прошла все тесты без единого провала.

 

Источник: iXBT

Читайте также