Профессия ML-инженера: как маленькая кошка обошла акулу и зачем ИИ нужны базы данных

В крупных компаниях объём информации нередко превышает способности её осмыслить. Данные скапливаются в базах, логах и документах, образуя слабо структурированный массив. Когда-то идея о том, что машины смогут выявлять в этом хаосе полезные закономерности, казалась фантастикой. Сегодня же эту задачу решает руководитель отдела машинного обучения Postgres Professional Савелий Батурин вместе с коллегами, связывая мощь языковых моделей с базой данных для реального извлечения ценности.

Профессия ML-инженера: как маленькая кошка обошла акулу и зачем ИИ нужны базы данных

Первые шаги в ML — с 16 лет

В 2016 году, когда мне исполнилось 16 лет, в области компьютерного зрения появились ResNet, VGG и YOLO. Эти архитектуры открыли новые горизонты в классификации и детекции объектов, показав, как алгоритмы могут «понимать» окружающий мир.

Хотя я тогда не знал всех тонкостей математики, можно было на базовом уровне осознать назначение разных моделей и провести эксперименты на Python. Этот интерес определил мой выбор университета и специальности — прикладная математика в МИФИ, что в дальнейшем помогло глубже разбираться в алгоритмах.

Первым серьёзным проектом стала система рекомендаций, для которой я адаптировал алгоритм FP-Growth и настроил выдачу товаров. Этот опыт наглядно показал красоту практического применения математики и заложил базовое понимание ML: всё начинается с данных и возвращается к ним, а между этими точками лежат алгоритмы, архитектуры и метрики валидации.

Где кончается ИИ и начинается ML

Machine Learning — это совокупность алгоритмов, выявляющих закономерности в данных и строящих предсказания. Подмножеством ML принято считать методы, вдохновлённые биологией, — нейросети, генетические алгоритмы и тому подобное.

Искусственный интеллект подразумевает системы, решающие задачи, привычные человеку: навигация, планирование, уборка роботом-пылесосом. Чтобы действовать «по-человечески», модель должна уметь рассуждать, планировать и оценивать свои решения. Появление языковых моделей, генерирующих текст, близкий к человеческому мышлению, и породило волну интереса к ИИ.

ML служит инструментом, позволяющим извлекать полезную информацию как из структурированных таблиц, так и из неструктурированных текстов и логов. Внутри ИИ существует множество направлений: помимо нейросетей, это логические системы, где знания хранятся в виде предикатов и выводов.

Абстракции в ML: от слова к смыслу

Нейросети оперируют абстракциями, подобно человеку. Мы передали моделям наше представление о языке, и они научились распознавать паттерны грамматики и семантики.

Абстракции — это синтаксические конструкции, связи между словами и более высокоуровневые смысловые группы. Например, «кот» и «собака» объединяются понятием «домашние животные», что редко встречается в контексте морских обитателей.

Абстракции в языке

Как вероятностная система языка, LLM генерирует фразы на базе своих внутренних представлений. Поэтому «кошка съела акулу» звучит маловероятно, а «кошка играет с мячиком» — весьма правдоподобно.

Пример генерации текста

Новые методы обучения нейросетей

Раньше популярным был SFT (supervised fine-tuning), но он порождал «какую-то» замкнутую зависимость, когда модели учились на собственном тексте и качество снижалось.

Сегодня преобладает RL (reinforcement learning): модели обучаются улучшать целевую метрику напрямую — будь то отзывы пользователей или оценка корректности SQL-запросов. Именно RL помог ChatGPT выйти на новый уровень.

Одно из направлений — уменьшение размера модели без потери качества. Агентные боты учатся использовать внешние инструменты и запоминать большие контексты для сложных задач.

Также появляются диффузионные архитектуры, предсказывающие сразу весь текстовый фрагмент, что ускоряет генерацию по сравнению с поэтапным GPT-подходом. Фундаментальные исследования здесь особенно важны, поскольку теория должна объяснять практические достижения.

Переход от бизнес-задачи к ML-проекту

Главный смысл ML в бизнесе — превращать данные в ценность: улучшать пользовательский опыт, повышать KPI и оптимизировать процессы. Любая задача должна быть формализована в математическую постановку, обычно одну из пяти категорий:

  • классификация;
  • регрессия;
  • кластеризация;
  • выявление аномалий;
  • снижение размерности.

Например, маркетплейсы используют рекомендательные системы для апселла, а сегментация пользователей помогает строить таргетированную рекламу. Но прежде чем писать код, необходимо чётко определить задачу и параметры:

  1. Что именно делаем? Повышаем конверсию, классифицируем отзывы, генерируем SQL.
  2. Какая бизнес-метрика? От неё зависит выбор алгоритма: линейная регрессия, бустинг или нейросеть.
  3. Какие данные есть? Их объём и качество определят этапы очистки и, возможно, аугментации.

Как мы внедряем ML в PostgreSQL

В Postgres Professional мы интегрируем языковые модели с СУБД для новых возможностей: суммирование документации, векторизация таблиц, генерация и оптимизация SQL-запросов, создание тестовых данных.

ML и PostgreSQL

С помощью RL модель учится формировать запросы, анализировать их результат и настраивать параметры выполнения. Мы преимущественно используем Qwen от Alibaba и модификации BERT (BGE). Модели от Google и Meta уступают при работе с русскоязычными данными.

Качество оцениваем по сочетанию закрытых, полузакрытых и открытых бенчмарков. Для мониторинга применяем Langfuse, Sentry и уведомления в Telegram. Обновление данных автоматизируем через Apache Airflow: по таймеру индексируем документацию и векторизуем её.

Ключевые вызовы — масштабирование инфраструктуры и выбор надёжных фреймворков. Часто приходится разбираться в исходниках и issue-трекерах. Дрейф модели из-за промптинга или обучения остаётся серьёзной проблемой.

Эффективный подход для оптимизации — RAG (retrieval-augmented generation): индексация корпуса для уточнения ответов. Или MCP (model context protocol) — универсальный формат описания инструментов. Но многие предпочитают кастомный tool calling для стабильности под конкретные задачи.

Роли в мире ML

Уровень погружения в ML варьируется. Исследователь оптимизирует нейроны и придумывает новые методы обучения, что требует глубокой математики. Другие специалисты работают на уровне MLOps, фокусируясь на инфраструктуре и интеграции моделей.

Появилась профессия контекст-инженера: вместо простого промпта формируется полноценный контекст для ИИ-агента. А большинство разработчиков уже используют ИИ-ассистентов для ускорения прототипирования и разработки. Главное — следить за валидацией и безопасностью данных, выбирая локальные или проверенные облачные решения.

Как оставаться в курсе

  • Telegram-каналы и агрегаторы новостей и научных статей;
  • лидеры мнений: Андрей Карпаты, Илья Суцкевер, Ян Лекун;
  • платформа SE7EN — обзоры и практические руководства;
  • RSS-ленты по выбранным источникам.

Почему не стоит бояться «Скайнета»

Современные модели далёки от AGI/ASI и не способны к самосовершенствованию без человека. Они ошибаются, и эта статистика снизится, но никогда не станет нулевой. Языковую модель следует рассматривать как инструмент: в одних задачах она полезна, в других может навредить, поэтому всегда нужна ручная проверка и валидация.

 

Источник

Читайте также