Собираем в одном месте научно-популярные статьи, видеоролики, документальные фильмы, выдержки из научных книг и прочие интересные материалы.
Неблагоприятная настройка: как минимальная корректировка ведет к значительным изменениям поведения языковой модели
Схематичное объяснение эффекта emergent misalignment: тонкая настройка на примерах, где ИИ втайне от пользователя добавляет в код уязвимости безопасности, приводит к сдвигам во всём поведении языковой модели. arXiv:2502.17424 Если дообучить большие языковые модели тайно встраивать уязвимости в код, то в…
Читать дальше







