Reddit объявил о планах по усилению защиты своего контента от веб-ботов, использующих его для обучения искусственного интеллекта.
Компания сообщила о предстоящем обновлении файла robots.txt, который регулирует доступ ботов к веб-сайту, а также о внедрении мер по ограничению скорости и блокировке доступа для некоторых неизвестных ботов. Эти меры направлены на предотвращение использования контента для обучения ИИ-моделей без должного указания источника.
Исторически robots.txt использовался для настройки индексации сайта поисковыми системами, однако с распространением ИИ появились новые сложности, связанные с использованием материалов без согласия владельцев. В ответ на эти вызовы Reddit вводит дополнительные меры контроля, чтобы обеспечить соблюдение своей «Политики открытого контента» и предотвратить коммерческое использование своих материалов без разрешения.
Представители Reddit подчеркнули, что нововведения не коснутся добросовестных пользователей и исследовательских организаций, таких как Internet Archive, которые используют контент в рамках установленных правил. Однако компании, занимающиеся обучением языковых моделей, такие как недавно упомянутый ИИ-стартап Perplexity, могут столкнуться с ограничениями, если не будут соблюдать директивы Reddit.
Контекст этих изменений связан с введением Reddit платы за доступ к API в прошлом году, что вызвало недовольство среди разработчиков и пользователей. Несмотря на критику, Reddit продолжает защищать свои данные, аргументируя это необходимостью контроля над использованием своего контента.