
В годы моей аспирантуры мой вечерний график подчинялся строгому распорядку. Около девяти вечера я инициировал процесс обучения модели: варьировал гиперпараметры, корректировал скорость обучения или добавлял новые механизмы внимания. Нажав Enter, я некоторое время гипнотизировал кривую лосса, после чего, осознав тщетность ожидания в одиннадцать вечера, уходил спать. Утром же меня неизменно ждало разочарование: в три часа ночи система «падала» из-за нехватки памяти — ошибки, которую следовало предусмотреть заранее.
Весь следующий день уходил на исправление багов и повторный запуск. Один эксперимент в сутки считался удачей, два — настоящим стечением обстоятельств.
А теперь представьте масштабы этой проблемы: тысячи ML-инженеров по всему миру вручную перебирают переменные, запуская циклы ожидания и проверки. В 2026 году большая часть исследований в области машинного обучения всё еще строится на этом архаичном подходе.
Андрей Карпати задался вопросом: почему бы не переложить эту рутину на плечи самой машины? Результатом стал репозиторий под названием autoresearch, который кардинально меняет правила игры.
Корень проблемы: избыточная линейность исследований
Существует негласная истина, о которой редко упоминают на конференциях: львиная доля времени исследователя тратится не на генерацию прорывных идей, а на монотонный цикл «изменение — обучение — оценка — вывод». Работая над диссертацией по анализу КТ-снимков, я мог целую неделю подбирать оптимальный размер батча и learning rate для новой архитектуры. Метод перебора по сетке (grid search) обходился слишком дорого при работе с массивом из 30 000 объемных снимков.
Сложность была не интеллектуальной, а процедурной — слишком медленная обратная связь. Каждое минимальное изменение требовало многочасового ожидания.
Живой специалист в состоянии провести от двух до пяти полноценных тестов в день, учитывая перерывы на еду, сон, совещания и неизбежное выгорание. ИИ-агент лишен этих ограничений. Он не знает усталости и экзистенциальных кризисов, что позволяет ему проводить до 12 экспериментов в час — около сотни за одну ночь. Именно в этом заключается магия autoresearch.
Механика работы: простота и эффективность
Архитектура решения предельно лаконична и состоит всего из трех ключевых компонентов.
prepare.py отвечает за подготовку данных и обучение токенизатора. Выполняется единожды на старте.
train.py представляет собой комплексную среду для обучения GPT, умещающуюся в 630 строк кода. Здесь сосредоточено всё: от структуры модели и оптимизаторов (Muon + AdamW) до цикла оценки. Именно этот файл становится объектом манипуляций ИИ-агента.
program.md — это стратегический документ в формате Markdown, где вы формулируете цели для агента. Это своего рода исследовательский бриф: «сосредоточься на оптимизации архитектуры», «протестируй различные размеры батчей» или «действуй осторожно, меняя по одному параметру за итерацию».
Алгоритм действий агента выглядит так:
-
Анализ инструкций в
program.md. -
Внесение корректировок в
train.py. -
Запуск пятиминутного цикла обучения.
-
Оценка валидационной метрики (bits per byte).
-
Фиксация изменений при улучшении показателей или откат к предыдущей версии в случае неудачи.
-
Возврат к первому шагу.
Пока вы спите, система прогоняет сотню экспериментов, сохраняя в истории Git только самые эффективные решения.
Гениальность пятиминутного лимита
Установление фиксированного пятиминутного бюджета — это важнейшее архитектурное решение. Оно устраняет фундаментальную проблему сравнения результатов.
Для объективности экспериментов необходима единая база. Если один тест длится 5 минут, а другой — 20, прямое сравнение их лосса бессмысленно: более длительный прогон предсказуемо покажет лучший результат, не раскрывая истинного потенциала идеи.
Жесткий лимит времени делает все итерации сопоставимыми. Агент волен менять любые параметры — от количества слоев до конфигурации оптимизатора, но результат всегда будет оцениваться в рамках одного временного окна.
Выбранная метрика (val_bpb) инвариантна к размеру словаря, что позволяет агенту экспериментировать даже с токенизацией без потери репрезентативности сравнения.
Единственный нюанс — результаты адаптированы под конкретное «железо». Оптимальные настройки для H100 будут отличаться от конфигурации для RTX 4090. Но в этом и преимущество: autoresearch находит идеальный баланс именно для вашей вычислительной мощности.
Говоря о практическом применении передовых нейросетей: не обязательно иметь доступ к кластеру H100, чтобы оценить возможности современного ИИ. Сравнивать эффективность различных моделей можно на платформе BotHub. Сервис объединяет лидирующие решения, включая GPT-5.4, Claude 4.6 и другие нейросети, в рамках единого интерфейса для ваших задач.

Сервис работает без VPN и поддерживает оплату российскими картами.
Воспользуйтесь ссылкой, чтобы получить 300 000 приветственных токенов для тестирования нейросетей в ваших проектах прямо сейчас!
Смена парадигмы: программирование через Markdown
Самый интригующий аспект autoresearch заставляет переосмыслить роль исследователя. Годами мы изучали Python, тонкости PyTorch и нюансы работы с CUDA, чтобы создавать совершенные скрипты обучения.
Теперь же фокус смещается. Вместо написания кода вы составляете Markdown-файл, обучающий ИИ-агента тому, как именно следует подходить к написанию этих скриптов.
Нужна новая архитектура? Дополните Markdown. Требуется тюнинг оптимизатора? Внесите правки в бриф. Markdown превращается в вашу глобальную исследовательскую стратегию.
По словам Карпати, текущий program.md уже на 90% сформирован самим ИИ. Человек перестает быть кодером и переходит на позицию научного руководителя, задающего вектор развития, пока агент берет на себя управление лабораторией.
И здесь возникает главный вопрос: если program.md становится основным продуктом, то…


