Пока Андрей Карпаты спал, запущенный им ИИ-агент самостоятельно провел 100 экспериментов в репозитории

2 часа назад

В годы моей аспирантуры мой вечерний график подчинялся строгому распорядку. Около девяти вечера я инициировал процесс обучения модели: варьировал гиперпараметры, корректировал скорость обучения или добавлял новые механизмы внимания. Нажав Enter, я некоторое время гипнотизировал кривую лосса, после чего, осознав тщетность ожидания в одиннадцать вечера, уходил спать. Утром же меня неизменно ждало разочарование: в три часа ночи система «падала» из-за нехватки памяти — ошибки, которую следовало предусмотреть заранее.

Весь следующий день уходил на исправление багов и повторный запуск. Один эксперимент в сутки считался удачей, два — настоящим стечением обстоятельств.

А теперь представьте масштабы этой проблемы: тысячи ML-инженеров по всему миру вручную перебирают переменные, запуская циклы ожидания и проверки. В 2026 году большая часть исследований в области машинного обучения всё еще строится на этом архаичном подходе.

Андрей Карпати задался вопросом: почему бы не переложить эту рутину на плечи самой машины? Результатом стал репозиторий под названием autoresearch, который кардинально меняет правила игры.

Корень проблемы: избыточная линейность исследований

Существует негласная истина, о которой редко упоминают на конференциях: львиная доля времени исследователя тратится не на генерацию прорывных идей, а на монотонный цикл «изменение — обучение — оценка — вывод». Работая над диссертацией по анализу КТ-снимков, я мог целую неделю подбирать оптимальный размер батча и learning rate для новой архитектуры. Метод перебора по сетке (grid search) обходился слишком дорого при работе с массивом из 30 000 объемных снимков.

Сложность была не интеллектуальной, а процедурной — слишком медленная обратная связь. Каждое минимальное изменение требовало многочасового ожидания.

Живой специалист в состоянии провести от двух до пяти полноценных тестов в день, учитывая перерывы на еду, сон, совещания и неизбежное выгорание. ИИ-агент лишен этих ограничений. Он не знает усталости и экзистенциальных кризисов, что позволяет ему проводить до 12 экспериментов в час — около сотни за одну ночь. Именно в этом заключается магия autoresearch.

Механика работы: простота и эффективность

Архитектура решения предельно лаконична и состоит всего из трех ключевых компонентов.

prepare.py отвечает за подготовку данных и обучение токенизатора. Выполняется единожды на старте.

train.py представляет собой комплексную среду для обучения GPT, умещающуюся в 630 строк кода. Здесь сосредоточено всё: от структуры модели и оптимизаторов (Muon + AdamW) до цикла оценки. Именно этот файл становится объектом манипуляций ИИ-агента.

program.md — это стратегический документ в формате Markdown, где вы формулируете цели для агента. Это своего рода исследовательский бриф: «сосредоточься на оптимизации архитектуры», «протестируй различные размеры батчей» или «действуй осторожно, меняя по одному параметру за итерацию».

Алгоритм действий агента выглядит так:

Анализ инструкций в program.md.
Внесение корректировок в train.py.
Запуск пятиминутного цикла обучения.
Оценка валидационной метрики (bits per byte).
Фиксация изменений при улучшении показателей или откат к предыдущей версии в случае неудачи.
Возврат к первому шагу.

Пока вы спите, система прогоняет сотню экспериментов, сохраняя в истории Git только самые эффективные решения.

Гениальность пятиминутного лимита

Установление фиксированного пятиминутного бюджета — это важнейшее архитектурное решение. Оно устраняет фундаментальную проблему сравнения результатов.

Для объективности экспериментов необходима единая база. Если один тест длится 5 минут, а другой — 20, прямое сравнение их лосса бессмысленно: более длительный прогон предсказуемо покажет лучший результат, не раскрывая истинного потенциала идеи.

Жесткий лимит времени делает все итерации сопоставимыми. Агент волен менять любые параметры — от количества слоев до конфигурации оптимизатора, но результат всегда будет оцениваться в рамках одного временного окна.

Выбранная метрика (val_bpb) инвариантна к размеру словаря, что позволяет агенту экспериментировать даже с токенизацией без потери репрезентативности сравнения.

Единственный нюанс — результаты адаптированы под конкретное «железо». Оптимальные настройки для H100 будут отличаться от конфигурации для RTX 4090. Но в этом и преимущество: autoresearch находит идеальный баланс именно для вашей вычислительной мощности.

Говоря о практическом применении передовых нейросетей: не обязательно иметь доступ к кластеру H100, чтобы оценить возможности современного ИИ. Сравнивать эффективность различных моделей можно на платформе BotHub. Сервис объединяет лидирующие решения, включая GPT-5.4, Claude 4.6 и другие нейросети, в рамках единого интерфейса для ваших задач.

Сервис работает без VPN и поддерживает оплату российскими картами.

Воспользуйтесь ссылкой, чтобы получить 300 000 приветственных токенов для тестирования нейросетей в ваших проектах прямо сейчас!

Смена парадигмы: программирование через Markdown

Самый интригующий аспект autoresearch заставляет переосмыслить роль исследователя. Годами мы изучали Python, тонкости PyTorch и нюансы работы с CUDA, чтобы создавать совершенные скрипты обучения.

Теперь же фокус смещается. Вместо написания кода вы составляете Markdown-файл, обучающий ИИ-агента тому, как именно следует подходить к написанию этих скриптов.

Нужна новая архитектура? Дополните Markdown. Требуется тюнинг оптимизатора? Внесите правки в бриф. Markdown превращается в вашу глобальную исследовательскую стратегию.

По словам Карпати, текущий program.md уже на 90% сформирован самим ИИ. Человек перестает быть кодером и переходит на позицию научного руководителя, задающего вектор развития, пока агент берет на себя управление лабораторией.

И здесь возникает главный вопрос: если program.md становится основным продуктом, то…

Источник