Критерии автоматического определения авторства текста

Критерии автоматического определения авторства текста

Как определить, что текст написала нейросеть

По данным Bloomberg, около 30% специалистов используют для генерации текста нейросети. В России 67% опрошенных хотят применять в работе искусственный интеллект, чтобы меньше трудиться самому и не терять в доходе. Вот только такая статистика радует далеко не всех заказчиков. Некоторые не доверяют нейросетям, поэтому предпочитают, чтобы тексты писали не роботы, а люди.

Разбираемся, почему заказчики с осторожностью относятся к технологиям и какие средства разоблачения нейротекстов существуют сегодня.

Почему к текстам от нейросетей стоит относиться с осторожностью

Вот основные причины, почему заказчики остерегаются подобных статей.

Риск нарушения авторских прав

Сегодня нет официальной позиции по вопросу, кому принадлежат авторские права на тексты, созданные с помощью ИИ. По закону автор — это человек, который творческим или интеллектуальным трудом создаёт произведение. Однако в случае с нейросетью люди только дают указания, но не пишут сами.

Так как сейчас закон не признаёт нейротексты объектами авторского права, правила использования сгенерированного технологиями контента определяются в пользовательском соглашении нейросети.

И если Open AI передаёт права на текст даже в бесплатной версии, то Gerwin ограничивает его применение в политических, дискриминационных целях или в недоброжелательной рекламе. А в Midjourney использовать контент в коммерческих целях можно только при условии генерации произведения на платном тарифе.

Риск получения неуникальной или недостоверной информации

Нейросеть получает запрос, проводит его через алгоритмы, анализирует доступную по теме информацию и выдаёт ответ. Не отрицая, что по такому же запросу от другого пользователя может выдать аналогичный или похожий текст.

И тут появляется новая опасность. Исследователи из Корнелльского университета пришли к выводу: если ответы нейросети на одинаковый вопрос сильно разнятся, то с большой вероятностью она придумывает факты.

Риск, что нейротексты понизят ресурс компании в поисковой выдаче

В конце прошлого года специалист группы качества Google Дуй Нгуен заявил, что у компании есть алгоритмы для обнаружения и понижения рейтинга материалов, созданных искусственным интеллектом. Поэтому многие опасаются, что поисковики будут искать такой контент и пессимизировать его. То есть понижать позицию в поисковой выдаче.

Прецеденты уже существуют. К примеру, маркетолог Нил Патель провёл эксперимент, создав 50 тестовых веб‑сайтов, которые разделил на две группы. Сайты первой части эксперт заполнил статьями, созданными исключительно искусственным интеллектом. На сайтах второй были размещены ИИ‑статьи, доработанные людьми, а также материалы, написанные копирайтерами без использования нейросетей.

Результаты эксперимента показали, что ресурсы первой группы потеряли несколько позиций в поисковой выдаче. И это привело к снижению трафика до 70%.

При этом представители Google добавили, что положительно относятся к развитию нейросетей и уже создали свой чат‑бот Bard. Но для компании в приоритете качественные тексты. Система, которая ранжирует результаты, в первую очередь предлагает пользователям материалы, отвечающие стандартам E‑E‑A‑T (опыт, компетентность, авторитетность, достоверность).

Тексты, соответствующие им, вызывают доверие и считаются полезными, поскольку содержат примеры, опыт, аналитическую часть, исследования. А контент, который создают нейросети, без дополнительной глубокой доработки человеком зачастую таковым не является.

Между тем, в Госдуме предложили вводить маркировку для материалов, созданных с помощью ИИ. А пока этого не произошло, определять, что текст сгенерирован нейросетью, придётся самостоятельно. Или с помощью специальных сервисов.

Как самостоятельно определить, что текст написала нейросеть

В технологическом университете МИРЭА недавно провели эксперимент, в котором приняли участие 20 преподавателей и свыше 200 студентов. Половина из них писали научную работу самостоятельно. А другие 50% воспользовались помощью нейросетей. Преподавателям же предстояло вычислить такие ИИ‑материалы.

Чтобы это сделать, педагоги обращали внимание на стилистические и орфографические особенности текста. Например, на большое количество повторяющихся слов и смыслов, фактические и логические ошибки, отсутствие оригинальных суждений. Таким способом преподаватели смогли выявить 96% работ, написанных с помощью нейросети. 4% студентов же, которых не разоблачили, признались, что потратили на редактуру ИИ‑текста много часов.

Универсальной инструкции, которая поможет вычислить текст, сгенерированный нейросетью, не существует. Однако проведённый эксперимент показывает: таким материалам присущи схожие паттерны. Рассмотрим их подробнее.

Повторы смыслов и слов

Одна из причин понижения сайта в выдаче — переоптимизация ключевыми словами. Нейросеть в ответ на запрос зачастую «отвечает по кругу». Иногда она использует разные вхождения, но смысл всё равно повторяется.

Так, на скриншоте, представленном ниже, искусственному интеллекту была поставлена задача написать продающий пост о новом щадящем способе окрашивания волос. И в небольшом тексте нейросеть неоднократно повторила одни и те же тезисы.

Почти в каждом предложении сгенерированного текста повторяется словосочетание «новый способ окрашивания». А также присутствует неоднократное дублирование смыслов о безопасности метода и индивидуальном подходе, который позволит подчеркнуть уникальность каждого клиента.

Вот несколько цитат из текста, иллюстрирующих это: «преобразить свой образ и выразить свою индивидуальность», «учитываем вашу индивидуальность», «подходящий именно вам», «создать для вас уникальный и стильный образ», «сделать вашу причёску неповторимой», «сохранить здоровье и блеск ваших волос», «безопасным для ваших волос», «бережно ухаживают за волосами, сохраняя их здоровье».

Между тем, достаточно было один раз упомянуть, что в салоне представлена новая процедура — щадящий метод окрашивания, который позволит сохранить волос живым. А также пояснить, как работает метод, в чём его новизна и почему он безопасен. И добавить, что палитра цветов разнообразна, а мастера, прошедшие обучение, не только качественно проведут окрашивание, но и помогут с выбором цвета.

Наличие в тексте большого количества штампов и клише, отсутствие чувственного опыта

Пример с окрашиванием также показывает: имитировать то, как человек говорит в жизни, нейросеть не может. Люди опечатываются, используют сленг и сокращения, намеренно искажают слова. Такая подача помогает привлечь внимание, вызвать эмоции, передать позицию автора, его чувственный опыт.

Исследования показывают: нейросеть не делится чувствами, не принимает чью‑либо позицию. Поэтому предпочитает нейтральность, штампы и клише. В указанном выше примере это «профессиональные навыки», «высококачественные материалы», «уникальная возможность».

При этом нейросеть генерирует тексты в разных стилях. Например, можно дать ей задачу подготовить материал на тему «Что влияет на стоимость нефти». Но уточнить, что писать текст следует не сухим языком,