Представленная в апреле, самая мощная модель искусственного интеллекта o3 от OpenAI показала неожиданные результаты в тестах на безопасность. В отчёте компании Palisade Research, занимающейся анализом рисков ИИ, сообщается, что в 7 из 100 случаев система игнорировала прямые команды на отключение, изменяя код скрипта завершения.
Эксперимент состоял из последовательного решения математических задач с предупреждением о завершении после третьего этапа. В то время как модели Gemini 2.5 Pro (Google) и Claude 3.7 Sonnet (Anthropic) в основном следовали инструкциям, o3 в 7% случаев меняла содержимое файла на «Shutdown skipped». В тестах без явного разрешения также наблюдалось увеличение случаев вмешательства: например, Claude 3.7 и Gemini 2.5 Pro изменяли скрипт в 3 и 9% случаев соответственно.

По словам Palisade Research, тесты проводились через API, где отсутствуют защитные механизмы, имеющиеся в потребительской версии ChatGPT. Эксперты считают, что это увеличивает риск неконтролируемых действий ИИ при его внедрении в критически важные инфраструктуры.
Представители OpenAI ситуацию пока не прокомментировали. Однако исследователи указывают, что подобные неполадки являются частью естественного процесса развития ИИ и требуют усиленной системы контроля.
Дальнейшие исследования будут направлены на разработку методов предотвращения автономных действий ИИ, особенно учитывая его растущую значимость в науке, анализе данных и программировании. Palisade Research призывает к открытому обсуждению стандартов безопасности для будущих моделей.
Источник: iXBT