Как ИИ за пять дней обесценил двадцать лет развития безопасности в опенсорсе: история прорыва

13 Мар в 08:36

Более 850 миллионов загрузок ежегодно и всего рабочая неделя в Claude Code.

Именно столько времени потребовалось, чтобы аннулировать двадцатилетнюю копилефт-защиту chardet — фундаментального инструмента для распознавания кодировок в Python, который интегрирован практически в каждую среду разработки на этой планете.

Прежде чем углубиться в детали, стоит вспомнить суть конфликта лицензий. LGPL диктует строгое правило: код можно использовать свободно, но любые модификации должны оставаться открытыми на тех же условиях. MIT же максимально либеральна: «делайте что угодно». Если первая стоит на страже интересов сообщества, то вторая открывает двери корпорациям, позволяя забирать наработки без обязательств ответного вклада.

2 марта 2026 года Дэн Бланшар представил chardet 7.0.0, позиционируя релиз как «радикальное переосмысление проекта под лицензией MIT». Прежняя LGPL, охранявшая библиотеку с середины нулевых, исчезла. Инструментом этой трансформации стал Claude Code от Anthropic на базе модели Opus 4.6.

Спустя двое суток произошло событие, которого никто не ожидал: вернулся Марк Пилгрим. Оригинальный создатель chardet, который в 2011 году совершил «цифровое исчезновение», полностью стерев свое присутствие в сети. После полутора десятилетий абсолютного молчания его первым публичным действием стало создание тикета №327 на GitHub с лаконичным вердиктом: «У вас нет полномочий менять лицензию этого проекта».

Обращение поддержали почти полторы тысячи пользователей, после чего дискуссия была заблокирована модераторами.

Для каждого Python-разработчика chardet — это базовая зависимость. И исход этого юридического противостояния покажет, сохранит ли копилефт свою значимость в эпоху доминирования искусственного интеллекта.

Архитектор, ушедший в тень

Марк Пилгрим представил миру chardet в 2006 году, перенеся логику детектора кодировок Mozilla с C++ на Python. Выбор пал на LGPL — лицензию, гарантирующую сохранение принципов открытости для всех производных работ. Эта библиотека — невидимый, но критически важный компонент, обеспечивающий корректное отображение текстов на множестве языков в самых разных системах.

В 2011 году Пилгрим внезапно прервал свою деятельность: удалил блог, стер профиль на GitHub и фактически растворился в офлайне. Это исчезновение стало легендарным в IT-сообществе.

Дэн Бланшар принял эстафету в 2012 году и более десяти лет в одиночку тянул проект. Это годы кропотливой и зачастую незаметной работы: исправление багов, обеспечение совместимости и поддержка библиотеки с колоссальным объемом трафика в 135 миллионов скачиваний в месяц.

Джон Грубер из Daring Fireball подчеркнул значимость момента: Issue #327 — это первый признак жизни Пилгрима за долгие годы. Пятнадцать лет тишины прервались из-за принципиального спора о праве собственности на код.

Пять дней автоматизированной разработки

Мотивы Бланшара были прагматичными: он стремился повысить производительность и точность chardet, избавившись от ограничений LGPL, которые считал сдерживающим фактором.

«Единственным препятствием было отсутствие свободного времени, — признается Бланшар. — Благодаря Claude я реализовал задуманное всего за пять дней».

Процесс выглядел как возведение нового здания по старым чертежам на том же фундаменте. Бланшар создал пустой репозиторий и проинструктировал нейросеть игнорировать код под LGPL. В итоге Pull Request #322 включил 264 коммита. Проверка через анализатор JPlag выявила лишь 1,29% совпадений с предыдущей итерацией библиотеки (для сравнения, обычные обновления сохраняли до 93% исходного кода).

Технически новая версия впечатляет: скорость компиляции выросла в 41 раз, точность достигла 96,8%, расширился список поддерживаемых кодировок (до 99), а внешние зависимости исчезли вовсе.

Однако обнаружилось слабое звено: в ходе генерации Claude обратился к файлу метаданных `charsets.py` из старой базы. Этот нюанс поставил под сомнение полную юридическую стерильность процесса.

Говоря об ИИ-ассистентах: если вы хотите лично проверить возможности современных моделей в программировании и аналитике, сервисы вроде BotHub предоставляют удобный доступ к топовым нейросетям (GPT-4o, Claude 3.5 Sonnet и другим) через единый интерфейс. Это позволяет объективно сравнить качество генерации кода и выбрать оптимальный инструмент для своих задач.

Для использования не требуются обходные пути, поддерживаются локальные способы оплаты.

По этой ссылке доступны 300 000 приветственных токенов для тестирования нейросетей в ваших первых рабочих сценариях!

Юридический тупик

Суть претензии Пилгрима затрагивает основы интеллектуальной собственности в Open Source.

«Любые модификации лицензированного кода должны наследоваться по правилам LGPL, — утверждает Пилгрим. — Использование нейросети не дает новых прав. Это не разработка «чистой комнаты», так как авторы имели полный доступ к оригиналу».

Метод «чистой комнаты» подразумевает полную изоляцию: одна команда пишет ТЗ, другая — код, никогда не видя исходника. В случае с chardet Бланшар, знающий код досконально, был связующим звеном, а Claude, обучавшийся на открытых репозиториях, — исполнителем.

Фонд свободного ПО (FSF) поддержал Пилгрима. Зои Кууман отметила, что в работе LLM нет ничего «чистого», если она поглотила код для его переписывания. По ее словам, подрыв копилефта — это опасный прецедент.

Мэдисон Тейлор из NVIDIA резюмировала ситуацию: без согласия всех авторов (а Марк явно против) риски легитимности MIT-версии остаются запредельными.

Три сценария развития событий

Параллельно с этим Верховный суд США по делу Thaler v. Perlmutter подтвердил: авторские права принадлежат только людям, ИИ не может быть субъектом права. Это создает правовую ловушку с тремя выходами:

Вариант 1. Код ИИ не защищен авторским правом. Тогда лицензия MIT ничтожна, а код становится общественным достоянием. Никто не владеет им, и никто не может диктовать условия.

Вариант 2. Код ИИ — это производная работа. Поскольку обучение шло на LGPL-коде, новая версия обязана следовать старой лицензии. Перевод на MIT незаконен.

Вариант 3. Код ИИ — абсолютно новый продукт. Низкий процент сходства легализует смену лицензии.

Каждый путь несет угрозу: либо разрушение экономики ИИ-инструментов, либо «наследование» лицензий обучающей выборки, либо возможность «отмыть» любой закрытый проект через промпты.

Брюс Перенс, стоявший у истоков Open Source, крайне встревожен: по его мнению, привычная модель разработки ПО может просто рухнуть под натиском подобных методов.

Корабль Тесея в эпоху автоматизации

Армин Ронахер из Flask назвал произошедшее «слопфорком». Проблема глубже простого копирования: ИИ радикально снизил стоимость переписывания кода. Если раньше копилефт держался на том, что переписать проект с нуля было слишком дорого и долго, то теперь этот барьер пал.

Если прецедент chardet устоится, любая сложная библиотека под защитой GPL может быть пересобрана нейросетью за считанные дни и выпущена под свободной лицензией MIT. Единственной преградой останется только торговая марка.

Реакция сообщества не заставила себя ждать: NetBSD и Gentoo запретили код от ИИ, а разработчик curl Дэниел Стенберг прекратил выплаты за баги из-за потока мусорных отчетов от нейросетей.

Что делать разработчикам?

Каждый вызов `pip install requests` косвенно втягивает вас в этот конфликт. Пока суды не дадут четкого определения статусу ИИ-кода, использование chardet 7.0.0 в коммерческих продуктах сопряжено с юридическими рисками.

Бланшар проделал огромную работу по поддержке проекта, но выбранный им путь ставит под удар принципы, на которых строилось сообщество десятилетиями. Пилгрим вернулся из цифрового небытия, чтобы напомнить: правила имеют значение.

Рекомендуется провести аудит зависимостей. Если безопасность и юридическая чистота для вас в приоритете — зафиксируйте версию chardet 6.x или рассмотрите переход на альтернативы с прозрачной лицензионной историей. Наступило время, когда защита кода в лицензии стоит меньше, чем время, затраченное на его генерацию.

Источник