ИИ под лупой: исследователи выявили характерные особенности сгенерированных текстов

Учёные из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других ведущих лабораторий разработали подход, который не только определяет, был ли текст создан человеком или нейросетью, но и показывает, какие именно свойства текста влияют на решение классификатора. Анализируя активации глубоких слоёв языковой модели, исследователи выделили числовые «атомы» текста, отвечающие за стилистические особенности, сложность построения фраз и «уверенность» высказываний. Работа принята на конференцию Findings of ACL 2025 и доступна в виде препринта на arXiv (программа, текст).

С бурным ростом возможностей больших языковых моделей (LLM) — ChatGPT, Gemma, LLaMA и других — сгенерированные ими тексты заполонили интернет, учебные пособия и даже научные публикации. Встал вопрос: как отличить подлинное человеческое творчество от машинного? Существующие детекторы зачастую работают как «чёрные ящики»: выдают ответ «человек» или «ИИ», но не объясняют, почему. Это ограничивает их надёжность и затрудняет исправление ошибок.

Авторы решили поступить иначе: вместо очередного «чёрного ящика» они заглянули внутрь нейросети и с помощью разреженных автокодировщиков (Sparse Autoencoders, SAE) превратили тысячекратные сигналы скрытых слоёв в набор чётко интерпретируемых признаков. SAE выступает «сепаратором», который разбивает внутренние активации на атомарные компоненты — каждый отражает отдельный аспект текста: сложность синтаксиса, насыщенность лексики и т. д.

Лаида Кушнарева, старший академический консультант Huawei, комментирует: «Эксперты, часто сталкивающиеся с текстами ChatGPT, легко узнают их по сухому, формальному тону, затянутым вводным частям, повторяющимся формулировкам и низкой плотности информации. Однако большинство детекторов не показывает, в какой степени текст обладает этими чертами. Наш метод на базе SAE автоматически разбивает текст на «атомы» — числовые признаки, понятные человеку, — и выносит решение, обоснованность которого можно проверить по каждому признаку. Мы также продемонстрировали устойчивость к попыткам обмана: добавление лишних пробелов, артиклей или нестандартных символов не сбивает наш детектор с толку.»

В эксперименте на модели Gemma-2-2B исследователи подавали разнообразные тексты и сохраняли внутренние состояния глубоких слоёв. С помощью SAE из этих активаций выделили тысячи «атомов», на базе которых обучили классификатор. Затем они интерпретировали признаки: выяснили, какие общие черты характерны для разных LLM, а какие — для конкретных семейств или типов текста (например, научных статей или отзывов). Например, в научных текстах ИИ часто создаёт чрезмерно сложные конструкции, а в финансовых — многословные рассуждения о простых фактах.

Так, «признак № 3608» из 16-го слоя SAE отражает синтаксическую сложность: его усиление даёт запутанные, трудночитаемые предложения, а ослабление — короткие «фрагментарные» фразы с минимальной связностью. Признак № 4645 отвечает за «уверенность» текста, а № 6587 — за склонность к длинным вводным и подробным объяснениям.

ИИ под лупой: исследователи выявили характерные особенности сгенерированных текстов
Рисунок 1. Интерпретации «универсального» признака 3608 для детекции AI-текстов. Источник: ArXiv.org.

Анастасия Вознюк, студентка МФТИ: «Мы не только анализировали, на что модель смотрит при детекции, но и пробовали «управлять» генерацией. Усиливая или ослабляя выделенные признаки, можно наблюдать изменение стилистики: например, уровень «академичности» напрямую коррелирует с активацией соответствующего «атома».»

Результаты показывают, что при стандартных запросах современные LLM генерируют тексты с узнаваемыми для детекторов чертами. Однако при персонализированных заданиях (необычный стиль, нестандартные требования) эти особенности ослабляются, усложняя задачу классификации.

Предложенный многогранный метод сочетает автоматическое выделение признаков, их ручную интерпретацию и эксперимент с «управлением». Это открывает путь к детекторам, которые помимо вердикта дают отчёт о выявленных аномалиях, что важно для преподавателей, редакторов и специалистов по борьбе с дезинформацией.

Дальнейшие исследования будут направлены на адаптацию метода к более мощным LLM и поиску трудноуловимых признаков, чтобы оставаться на шаг впереди злоумышленников и минимизировать ложные срабатывания.

Научная статья: Kuznetsov, K., Kushnareva, L., Druzhinina, P., Razzhigaev, A., Voznyuk, A., Piontkovskaya, I., Burnaev, E., & Barannikov, S. (2025). Feature-Level Insights into Artificial Text Detection with Sparse Autoencoders. arXiv preprint arXiv:2503.03601.

 

Источник

Читайте также