OpenAI сообщила о внедрении обновлённой системы безопасности для своих моделей o3 и o4-mini, направленной на предотвращение их применения для создания биологических и химических угроз. Новый мониторанг в режиме реального времени анализирует пользовательские запросы и блокирует те, которые связаны с опасными сценариями, такими как разработка биологического оружия.
Согласно внутреннему документу OpenAI, эта система использует алгоритмы, которые отслеживают манеру «рассуждения» моделей, чтобы выявлять нарушения политик контента. В процессе тестирования специальная команда по уязвимостям (так называемая «красная команда») потратила более 1000 часов на моделирование опасных диалогов. В подавляющем большинстве случаев, 98,7%, o3 и o4-mini отказывались предоставлять информацию о биоугрозах. Однако компания признаёт, что тестирование не охватывало случаи, когда пользователи переформулируют заблокированные запросы. Поэтому часть ответственности остаётся на людях.

Новые модели, особенно o3, показывают высокую эффективность при ответах на сложные технические вопросы, что, по мнению OpenAI, увеличивает потенциальные риски. Хотя текущие версии ещё не достигли уровня «высокого риска», их возможности превосходят предыдущие разработки, такие как GPT-4. Для снижения угроз компания внедрила аналогичную систему мониторинга и в генератор изображений GPT-4o, который теперь автоматически блокирует попытки создания изображений запрещённых тематик (CSAM).
Критики, в том числе партнёр по тестированию Metr, подчёркивают недостатки в подходе OpenAI. Например, было выделено недостаточно времени для проверки устойчивости модели o3 к обманным методам. Кроме того, запуск GPT-4.1 на прошлой неделе прошёл без публикации отчёта по безопасности, что вызвало вопросы о прозрачности компании.
OpenAI продолжает совершенствовать «Рамочную программе готовности», сосредотачиваясь на химических и биологических угрозах. Несмотря на достижения в автоматизации, сохранение баланса между инновациями и безопасностью остаётся сложной задачей. Успех новых мер во многом зависит от способности систем адаптироваться к изменениям тактик злоумышленников, а также от сотрудничества разработчиков с независимыми исследователями.
Источник: iXBT