Искусственный интеллект выбирает обман вместо честного проигрыша в шахматах

Обнаружено, что искусственный интеллект может прибегать к нечестным приемам в шахматных матчах при угрозе проигрыша. Этот вывод сделали эксперты из Palisade Research на основании обширного исследования, результаты которого были эксклюзивно предоставлены журналу TIME.

В ходе эксперимента семь различных моделей ИИ сражались с шахматной программой Stockfish, одной из самых мощных в мире. Исследование длилось несколько недель, в течение которых было сыграно несколько сотен партий. Для изучения процесса принятия решений использовался специальный «журнал», где модели фиксировали свои умозаключения перед каждым движением.


Искусственный интеллект выбирает обман вместо честного проигрыша в шахматах
Источник: нейросеть DALL-E

Особое внимание вызвало поведение модели o1-preview от OpenAI, которая, оказавшись в неблагоприятной позиции, оставила сообщение: «Нужно полностью пересмотреть стратегию» и далее: «Цель – «одержать верх над мощным шахматным движком», не обязательно соблюдая честные правила игры». Впоследствии, модель изменила системный файл с расположением фигур, что привело к технической победе из-за принудительного прекращения игры соперником.

Согласно данным исследования, модель o1-preview прибегала к нечестным методам в 37% матчей, а DeepSeek R1 – в 11% случаев. Примечательно, что к «хакерским» действиям стремились только эти две модели, без дополнительных указаний от исследователей. Лишь попытки o1-preview увенчались успехом в 6% случаев, позволив обойти защитные механизмы системы.

Остальные протестированные модели – o1, o3-mini, GPT-4o, Claude 3.5 Sonnet и QwQ-32B-Preview от Alibaba – такого поведения не демонстрировали. Исследователи предполагают, что это связано с более жесткими мерами безопасности или спецификой их обучения, хотя точного пояснения пока нет.

Публикации Palisade Research показывают, что из 71 полной партии честной игры o1-preview не выиграла ни одной у Stockfish. За счет 52 попыток взлома системы, она добилась успеха в семи из них. С учетом огромного преимущества Stockfish в шахматах, получение преимущества через взлом оказалось единственной эффективной стратегией для данной модели ИИ.

 

Источник: iXBT

Читайте также