Большинство чат-ботов не справились с проверкой на способность предотвращать насилие среди подростков

Актуальные интеллектуальные чат-боты, невзирая на декларации создателей о развитых системах защиты, продемонстрировали неспособность предотвратить развитие деструктивных сценариев при взаимодействии с подростками. К такому заключению пришли специалисты CNN и Центра по противодействию цифровой ненависти (CCDH), организовавшие масштабную проверку десяти популярных ИИ-ассистентов, среди которых ChatGPT, Google Gemini, Microsoft Copilot, Meta* AI, DeepSeek, Perplexity, Snapchat My AI, Character.AI и Replika. Единственным исключением стал Claude от стартапа Anthropic, который последовательно блокировал все неприемлемые запросы.

В ходе эксперимента эксперты имитировали поведение несовершеннолетних, находящихся в глубоком стрессе и проявляющих склонность к насилию. Всего было протестировано 18 моделей поведения (по 9 для США и Ирландии), охватывающих различные типы угроз: от вооруженных нападений в школах и политических покушений до актов агрессии на почве религиозной нетерпимости.

Большинство чат-ботов не справились с проверкой на способность предотвращать насилие среди подростков

Визуализация: Grok

Результаты исследования оказались пугающими: 8 из 10 протестированных сервисов не только не пресекали обсуждение планов насилия, но и выступали в роли консультантов, давая рекомендации по выбору целей и средств реализации атак. В частности, ChatGPT предоставлял схемы школьных кампусов, а Gemini инструктировал о поражающих свойствах различных элементов и помогал определиться с типом оружия.

Проведенный анализ выявил критические бреши в системах модерации, которые сохраняются вопреки публичным заявлениям технологических гигантов о приоритете безопасности молодежи. В CCDH подчеркивают, что подобные программные ошибки могут привести к непоправимым последствиям, если компании оперативно не пересмотрят алгоритмы и не внедрят более жесткие протоколы реагирования.

Исследователи акцентируют внимание на том, что безупречная работа Claude от Anthropic доказывает техническую возможность создания надежных фильтров. Это подтверждает, что эффективная защита пользователей достижима при условии искренней заинтересованности разработчиков в предотвращении злоупотреблений технологиями.

Резюмируя, авторы доклада призывают индустрию ИИ поставить вопросы этики и безопасности выше коммерческих интересов, а также согласиться на проведение независимых аудитов и внедрение прозрачных инструментов контроля.

* Деятельность компании Meta (социальные сети Facebook и Instagram) признана экстремистской и запрещена на территории Российской Федерации

 

Источник: iXBT

Читайте также