ICLR отклонил 497 статей из-за использования ИИ в рецензиях: авторы могли легко обойти детекторы

В конце марта в академической среде разгорелся скандал: одна из ведущих площадок в области ИИ, конференция ICLR 2026, аннулировала 497 заявок. Это около 2% от общего числа. Причиной стало не низкое научное качество, а подозрение в использовании LLM при написании рецензий. Вердикт выносили автоматические детекторы, чья точность якобы превышает 95%.

Изучив официальные пресс-релизы, дискуссии на OpenReview и свежую литературу по теме, я пришел к неутешительным выводам.

Суровая реальность апреля 2026 года такова: на рынке не существует инструментов, работающих с заявленной эффективностью. Любой алгоритмический контроль сегодня обходится одним удачным промптом и парой минут правок.

Далее — подробный разбор того, как функционируют подобные системы, в чем их фундаментальные ограничения и почему 497 «пойманных» работ — это не триумф технологий, а скорее свидетельство лени авторов, поленившихся адаптировать текст под человеческий стиль.

Три семейства детекторов: perplexity, contrastive, neural classifier
Три семейства детекторов: perplexity, contrastive, neural classifier

Механика ИИ-детекции: три подхода

Несмотря на внешнее единообразие (вход — текст, на выходе — индекс вероятности), архитектурно современные детекторы делятся на три группы.

1. Perplexity-based (основанные на перплексии). Это «старая гвардия» (GPTZero, ZeroGPT и др.). Система анализирует «удивление» языковой модели перед каждым следующим токеном. ИИ пишет предсказуемо, поэтому его перплексия всегда ниже — текст выглядит для модели подозрительно «удобным» и лишенным энтропии.

2. Contrastive (контрастивные методы). Эволюция первого подхода, яркий пример — Binoculars. Здесь текст оценивается двумя моделями (общей и специализированной). Если их прогнозы перплексии близки, с вероятностью в 10–15% выше базовой — это машинный контент.

3. Neural classifier (нейронные классификаторы). Наиболее продвинутый сегмент (Originality.ai, Copyleaks, Pangram). Модели вроде RoBERTa обучаются на огромных массивах пар «человек vs ИИ». Использование ансамблей из десятков моделей теоретически позволяет выйти на точность 99%.

Однако суть одна: детектор не видит «интеллект», он фиксирует статистическую предсказуемость, свойственную генеративному ИИ. И это принципиальная разница.

Ожидания против реальности: данные апреля 2026

Сравним маркетинговые обещания с результатами независимого тестирования.

Детектор

Заявленная точность

Независимые тесты

Originality.ai

96–99%

84–88%

Pangram

99.5%

81–87%

GPTZero

98%

65–72%

Copyleaks

99%

78–82%

ZeroGPT

98%

60–68%

Источники (TextShift, Walter Writes) подтверждают: на практике показатели оказываются на 15-20% ниже декларируемых. Но это лишь половина проблемы.

Главная уязвимость: «гуманизация» за 30 секунд

С конца 2025 года набрали популярность техники «гуманизации» — цепочки промптов, которые принуждают LLM нарушать идеальную структуру текста: добавлять неровный ритм, разговорные обороты и намеренную «небрежность». Результаты детекции после такой обработки рушатся катастрофически.

Точность детекторов рушится после гуманизации в 10–20 раз
Точность детекторов рушится после гуманизации в 10–20 раз

Детектор

До гуманизации

После гуманизации

Originality.ai

88%

7.8%

Copyleaks

82%

6.2%

Turnitin

79%

5.1%

GPTZero

72%

4.3%

ZeroGPT

65%

3.1%

Эффективность ниже, чем у подбрасывания монетки. ICLR, по всей видимости, выявила лишь тех, кто просто «копипастил» сырой текст из чата. Любой мало-мальски подкованный автор обходит этот фильтр без труда.

Микро-эксперимент: реальность против алгоритмов

Я провел быстрый тест: взял стандартный академический фрагмент и прогнал три версии (сырой ИИ, «гуманизированный» ИИ и авторский текст) через популярные детекторы.

# Концепция промпта для «гуманизации»
HUMANIZE_PROMPT = """
Перепиши текст как человеческий черновик. Добавь легкие стилистические неровности, 
измени структуру предложений, исключи избитые коннекторы и академические штампы. 
Текст должен выглядеть естественно, с оттенком «живой» мысли.
"""

Тип текста

GPTZero

ZeroGPT

Чистый GPT-5

96% AI

91% AI

Гуманизированный GPT-5

14% AI

8% AI

Мой собственный

11% AI

6% AI

Результат: гуманизированный ИИ практически неотличим от работы человека.

Bias детекторов против неносителей английского: 5–7% vs 61%
Bias детекторов против неносителей английского: 5–7% vs 61%

Дискриминация неносителей языка (ESL bias)

Еще одна критическая уязвимость — систематическая предвзятость. Исследования (Liang et al., Pangram Labs) показывают, что тексты авторов, для которых английский — второй язык (ESL), регулярно помечаются как «ИИ-сгенерированные» (в 61% случаев против 5-7% у носителей языка). Причина — академический стиль ESL-авторов часто более структурирован и менее идиоматичен, что детекторы ошибочно принимают за «роботизированный» слог.

Учитывая международный статус ICLR, велика вероятность, что под каток фильтров попали не нарушители, а просто добросовестные исследователи из неанглоязычных стран.

Итоги

Ситуация с детекторами в 2026 году комична и трагична одновременно: они работают только против ленивых пользователей, легко обходятся промптами и дискриминируют неносителей английского языка.

Применять такие инструменты в качестве арбитра — методологическая ошибка. Технологии водяных знаков (watermarking) могли бы решить вопрос, но коммерческие корпорации отказались от них ради охватов. В итоге мы оказались в мире, где достоверное разграничение между человеком и моделью стало математически невозможным. Нам придется учиться с этим жить.

 

Источник

Читайте также