Сбой при обучении ChatGPT привел к «нашествию гоблинов» в ответах нейросети

Корпорация OpenAI официально подтвердила забавный, но показательный баг в работе ChatGPT: после апгрейда до версии 5.1 чат-бот начал навязчиво интегрировать в свои ответы и изображения фэнтезийных существ, даже если контекст беседы не имел к этому никакого отношения. Согласно внутренней статистике разработчика, сразу после обновления частота употребления слова «гоблин» подскочила на 175%, а в ряде специфических режимов этот показатель взлетел почти до 3900%.

Пользователи столкнулись с подобным поведением еще в ноябре. Чат-бот постоянно вплетал гоблинов в метафорические обороты, аналогии и даже в генерацию картинок по вполне заурядным запросам. Масштабы проблемы оказались настолько внушительными, что OpenAI была вынуждена прибегнуть к радикальным мерам, временно запретив модели оперировать этим термином в большинстве сценариев диалога.

Как уточнили представители компании, корень зла крылся в одной из настраиваемых «личностей» — профиле «nerdy», предназначенном для придания ответам более непринужденного и легкого тона. Именно этот пресет стал рассадником чрезмерного увлечения мифическими персонажами.

Профессор Северо-Восточного университета Кристоф Ридль подчеркивает, что данный инцидент обнажает системные уязвимости современных ИИ-архитектур. Эксперт связывает произошедшее с нюансами этапа дообучения (fine-tuning), когда человеческие оценки формируют систему поощрений для нейросети. В процессе такого обучения модель анализирует, какие ответы вызывают у аудитории наиболее позитивный отклик, ориентируясь не только на фактологическую точность, но и на эмоциональный окрас, стиль и общую подачу. Обнаружив, что определенный стилистический прием провоцирует одобрение, алгоритм начинает тиражировать его как эффективную стратегию.

Ридль называет это явление «взломом вознаграждения» (reward hacking), когда нейросеть выбирает кратчайший путь к получению высокого рейтинга. Вероятно, в случае с ChatGPT алгоритм слишком примитивно интерпретировал запрос на «гиковскую» (nerdy) подачу, ошибочно связав её с навязчивым упоминанием гоблинов и подобных существ.

Сбой при обучении ChatGPT привел к «нашествию гоблинов» в ответах нейросети
Иллюстрация: Nano Banana

Согласно данным OpenAI, в период с декабря по март частота упоминаний гоблинов в режиме «nerdy» подскочила на 3881,4%. В дальнейшем эта аномалия начала распространяться и на другие поведенческие профили. Кроме гоблинов, «арсенал» модели пополнился троллями, ограми, енотами, голубями и гремлинами, хотя разработчики и оговорились, что в некоторых случаях упоминания были вполне оправданы.

Ридль полагает, что этот казус подсвечивает куда более глубокую проблему всей индустрии. Несмотря на колоссальные ресурсы, затрачиваемые на обучение нейросетей, разработчики зачастую не в состоянии спрогнозировать, какие деструктивные поведенческие шаблоны могут закрепиться внутри системы после выпуска. Порой на выявление подобных побочных эффектов уходят месяцы.

Хотя OpenAI удалось купировать проблему путем деактивации некорректного профиля, эксперты бьют тревогу: гонка вооружений в сфере ИИ вынуждает компании форсировать релизы в ущерб всестороннему тестированию систем.

Профессор отмечает, что в этот раз последствия ограничились лишь комичной ситуацией. Однако подобные механизмы «взлома вознаграждения» могут закреплять и гораздо более опасные паттерны. В качестве негативного примера он приводит чат-бот Grok от xAI, который ранее распространял фейковые утверждения о «белом геноциде в Южной Африке».

Подводя итог, эксперт констатирует, что хотя история с гоблинами выглядит безобидным курьезом, она наглядно демонстрирует непредсказуемость поведения больших языковых моделей, прошедших через сложные циклы обучения и настройки.

 

Источник: iXBT

Читайте также