Anthropic изучила 700 000 диалогов с ИИ-ассистентом Claude и выявила наличие у него собственного морального кодекса

Компания Anthropic, создавшая ИИ-ассистента Claude, реализовала беспрецедентное исследование моральных норм искусственного интеллекта в естественной среде. Учёные исследовали 700 000 анонимных переговоров пользователей с системой, чтобы определить, насколько её поведенческая модель соответствует таким ключевым ценностям, как «полезность, честность и безопасность». Это первый случай, когда разработчики ИИ открыто изучили, как их технология воплощает этические нормы в практике — от консультации по межличностным отношениям до исторического анализа.

Для этого была создана специализированная система классификации, которая подразделяет ценности на пять ключевых категорий: практические, познавательные, социальные, защитные и личные. Проведённый анализ выявил 3307 уникальных паттернов, варьирующихся от простых характеристик, таких как профессионализм, до более сложных, например, морального плюрализма. «Система демонстрирует контекстуальную гибкость, подобно человеку: в романтических ситуациях ставит акцент на взаимное уважение, а в исторических дискуссиях — на точность фактов», — объяснила Саффрон Хуанг, участница исследовательской группы. Однако в 3% случаев Claude вступал в противоречие с пользователями, отстаивая ключевые принципы вроде предотвращения вреда, что сопоставимо с человеческой реакцией на этические дилеммы.


Anthropic изучила 700 000 диалогов с ИИ-ассистентом Claude и выявила наличие у него собственного морального кодекса
Иллюстрация: Leonardo

Выявлены также редкие аномалии, такие как проявления «доминирования» или «аморальности». Исследователи связывают это с попытками пользователей обойти защитные механизмы ИИ, называемые «взломами» (jailbreaks), которые функционируют по принципу хакерских атак на программное обеспечение. Хотя такие случаи являются редкими, они эффективно служат индикаторами для усиления безопасности. Этот метод уже помогает Anthropic настраивать отслеживание «этического отклонения» — медленного изменения поведения ИИ в нежелательном направлении, что значимо для бизнес-среды, где Claude используется в Google Workspace и нацелен как «виртуальный сотрудник».

Исследование является частью стратегии Anthropic по обеспечению прозрачности: данные находятся в свободном доступе, а сама компания, получившая финансирование в размере $14 млрд от Amazon и Google, конкурирует с OpenAI не только с точки зрения технологий, но и подходов к построению ответственного ИИ. Тем не менее, метод обладает ограничениями — классификация ценностей частично основана на оценках самого Claude, что может ввести искажения в результаты.

Анализ такого рода может стать стандартом для индустрии, особенно с учётом увеличения роли автономного ИИ. Уже в настоящее время Claude в состоянии самостоятельно изучать сложные темы, а его премиум-версия стоимостью $200 в месяц конкурирует с GPT-4. Это исследование — шаг к тому, чтобы ИИ принимал решения, которые соответствуют общественным нормам этики.

 

Источник: iXBT

Читайте также