В крупных компаниях объём информации нередко превышает способности её осмыслить. Данные скапливаются в базах, логах и документах, образуя слабо структурированный массив. Когда-то идея о том, что машины смогут выявлять в этом хаосе полезные закономерности, казалась фантастикой. Сегодня же эту задачу решает руководитель отдела машинного обучения Postgres Professional Савелий Батурин вместе с коллегами, связывая мощь языковых моделей с базой данных для реального извлечения ценности.

Первые шаги в ML — с 16 лет
В 2016 году, когда мне исполнилось 16 лет, в области компьютерного зрения появились ResNet, VGG и YOLO. Эти архитектуры открыли новые горизонты в классификации и детекции объектов, показав, как алгоритмы могут «понимать» окружающий мир.
Хотя я тогда не знал всех тонкостей математики, можно было на базовом уровне осознать назначение разных моделей и провести эксперименты на Python. Этот интерес определил мой выбор университета и специальности — прикладная математика в МИФИ, что в дальнейшем помогло глубже разбираться в алгоритмах.
Первым серьёзным проектом стала система рекомендаций, для которой я адаптировал алгоритм FP-Growth и настроил выдачу товаров. Этот опыт наглядно показал красоту практического применения математики и заложил базовое понимание ML: всё начинается с данных и возвращается к ним, а между этими точками лежат алгоритмы, архитектуры и метрики валидации.
Где кончается ИИ и начинается ML
Machine Learning — это совокупность алгоритмов, выявляющих закономерности в данных и строящих предсказания. Подмножеством ML принято считать методы, вдохновлённые биологией, — нейросети, генетические алгоритмы и тому подобное.
Искусственный интеллект подразумевает системы, решающие задачи, привычные человеку: навигация, планирование, уборка роботом-пылесосом. Чтобы действовать «по-человечески», модель должна уметь рассуждать, планировать и оценивать свои решения. Появление языковых моделей, генерирующих текст, близкий к человеческому мышлению, и породило волну интереса к ИИ.
ML служит инструментом, позволяющим извлекать полезную информацию как из структурированных таблиц, так и из неструктурированных текстов и логов. Внутри ИИ существует множество направлений: помимо нейросетей, это логические системы, где знания хранятся в виде предикатов и выводов.
Абстракции в ML: от слова к смыслу
Нейросети оперируют абстракциями, подобно человеку. Мы передали моделям наше представление о языке, и они научились распознавать паттерны грамматики и семантики.
Абстракции — это синтаксические конструкции, связи между словами и более высокоуровневые смысловые группы. Например, «кот» и «собака» объединяются понятием «домашние животные», что редко встречается в контексте морских обитателей.

Как вероятностная система языка, LLM генерирует фразы на базе своих внутренних представлений. Поэтому «кошка съела акулу» звучит маловероятно, а «кошка играет с мячиком» — весьма правдоподобно.

Новые методы обучения нейросетей
Раньше популярным был SFT (supervised fine-tuning), но он порождал «какую-то» замкнутую зависимость, когда модели учились на собственном тексте и качество снижалось.
Сегодня преобладает RL (reinforcement learning): модели обучаются улучшать целевую метрику напрямую — будь то отзывы пользователей или оценка корректности SQL-запросов. Именно RL помог ChatGPT выйти на новый уровень.
Одно из направлений — уменьшение размера модели без потери качества. Агентные боты учатся использовать внешние инструменты и запоминать большие контексты для сложных задач.
Также появляются диффузионные архитектуры, предсказывающие сразу весь текстовый фрагмент, что ускоряет генерацию по сравнению с поэтапным GPT-подходом. Фундаментальные исследования здесь особенно важны, поскольку теория должна объяснять практические достижения.
Переход от бизнес-задачи к ML-проекту
Главный смысл ML в бизнесе — превращать данные в ценность: улучшать пользовательский опыт, повышать KPI и оптимизировать процессы. Любая задача должна быть формализована в математическую постановку, обычно одну из пяти категорий:
- классификация;
- регрессия;
- кластеризация;
- выявление аномалий;
- снижение размерности.
Например, маркетплейсы используют рекомендательные системы для апселла, а сегментация пользователей помогает строить таргетированную рекламу. Но прежде чем писать код, необходимо чётко определить задачу и параметры:
- Что именно делаем? Повышаем конверсию, классифицируем отзывы, генерируем SQL.
- Какая бизнес-метрика? От неё зависит выбор алгоритма: линейная регрессия, бустинг или нейросеть.
- Какие данные есть? Их объём и качество определят этапы очистки и, возможно, аугментации.
Как мы внедряем ML в PostgreSQL
В Postgres Professional мы интегрируем языковые модели с СУБД для новых возможностей: суммирование документации, векторизация таблиц, генерация и оптимизация SQL-запросов, создание тестовых данных.

С помощью RL модель учится формировать запросы, анализировать их результат и настраивать параметры выполнения. Мы преимущественно используем Qwen от Alibaba и модификации BERT (BGE). Модели от Google и Meta уступают при работе с русскоязычными данными.
Качество оцениваем по сочетанию закрытых, полузакрытых и открытых бенчмарков. Для мониторинга применяем Langfuse, Sentry и уведомления в Telegram. Обновление данных автоматизируем через Apache Airflow: по таймеру индексируем документацию и векторизуем её.
Ключевые вызовы — масштабирование инфраструктуры и выбор надёжных фреймворков. Часто приходится разбираться в исходниках и issue-трекерах. Дрейф модели из-за промптинга или обучения остаётся серьёзной проблемой.
Эффективный подход для оптимизации — RAG (retrieval-augmented generation): индексация корпуса для уточнения ответов. Или MCP (model context protocol) — универсальный формат описания инструментов. Но многие предпочитают кастомный tool calling для стабильности под конкретные задачи.
Роли в мире ML
Уровень погружения в ML варьируется. Исследователь оптимизирует нейроны и придумывает новые методы обучения, что требует глубокой математики. Другие специалисты работают на уровне MLOps, фокусируясь на инфраструктуре и интеграции моделей.
Появилась профессия контекст-инженера: вместо простого промпта формируется полноценный контекст для ИИ-агента. А большинство разработчиков уже используют ИИ-ассистентов для ускорения прототипирования и разработки. Главное — следить за валидацией и безопасностью данных, выбирая локальные или проверенные облачные решения.
Как оставаться в курсе
- Telegram-каналы и агрегаторы новостей и научных статей;
- лидеры мнений: Андрей Карпаты, Илья Суцкевер, Ян Лекун;
- платформа SE7EN — обзоры и практические руководства;
- RSS-ленты по выбранным источникам.
Почему не стоит бояться «Скайнета»
Современные модели далёки от AGI/ASI и не способны к самосовершенствованию без человека. Они ошибаются, и эта статистика снизится, но никогда не станет нулевой. Языковую модель следует рассматривать как инструмент: в одних задачах она полезна, в других может навредить, поэтому всегда нужна ручная проверка и валидация.



