OpenAI внесла изменения в свою «Систему готовности» — внутренний механизм, предназначенный для оценки уровня безопасности новых ИИ-моделей и определения необходимых предосторожностей на этапах их разработки и внедрения. В обновлённой версии компании упоминается возможность «корректировки» собственных стандартов безопасности, если конкурентами будет выпущена «высокорискованная» система без подобных защитных мер.
Ранее OpenAI подвергалась критике за возможные послабления в безопасности ради ускорения выхода моделей и задержки в предоставлении отчётов о тестировании. На прошлой неделе группа из 12 бывших сотрудников OpenAI представила документы в деле Илона Маска против компании, утверждая, что запланированная реорганизация может подстегнуть фирму к ещё более значительному сокращению мер безопасности.

Предвидя новую волну критики, OpenAI подчёркивает, что не намерена легкомысленно изменять политику и стремится поддерживать защитные меры на «достаточно высоком уровне». «Если ведущий разработчик ИИ представит высокорискованную систему без эквивалентной защиты, мы можем пересмотреть наши стандарты», — отмечает OpenAI в своём блоге. «Однако, перед тем как принять такое решение, мы тщательно оценим, как изменился ландшафт рисков, публично объявим о корректировке, убедимся, что данное изменение не увеличит общий риск значительного вреда и при этом сохраним защитные меры на соответствующем уровне».
Компания указывает, что, сохраняя элементы ручного тестирования, она также внедрила «увеличивающийся спектр автоматизированных оценок», которые должны «соответствовать темпу ускоренного выпуска». Однако возникают сомнения. Так, Financial Times отмечает, что на проверку безопасности значимой модели OpenAI выделила менее недели тестирования, что значительно меньше прежних сроков. Источники издания указывают, что проверка безопасности проводится не на текущих версиях моделей, а на их предварительных версиях. OpenAI отрицает компромиссы в области безопасности.
Среди прочих нововведений в «Систему готовности» OpenAI, которые остались вне широкой огласки, — отмена обязательных проверок безопасности у точно настроенных моделей, как об этом сообщил Стивен Адлер в социальной сети X (бывший Twitter). Остальные изменения касаются классификации моделей по уровню риска, включая возможность обхода защиты, сопротивление отключению и потенциальное самовоспроизведение. OpenAI теперь сосредоточится на оценке, достигают ли модели одного из двух порогов: «высокой» или «критической» способности.
Согласно OpenAI, «высокая» способность подразумевает возможность модели «усиления текущих методов нанесения существенного вреда». «Критическая» же способность относится к моделям, которые «открывают беспрецедентные новые способы нанесения серьёзного вреда». «Системы, выходящие на уровень высокой способности, должны обладать адекватными средствами защиты, которые минимизируют риск значительного вреда до их развертывания», — говорится в блоге OpenAI. Это обновление в «Системе готовности» стало первым с 2023 года.
Источник: iXBT