Устройство и предназначение Лаборатории Инноваций СИБУРа

26.12.2024

Создавать инновации быстро и гибко можно в стартапе или небольшой компании, но что, если ты промышленный гигант с более чем 25 заводами по всей стране, отлаженными процессами и бюджетированием, заточенными под беспрерывное производство, в котором каждая секунда на учёте и некогда экспериментировать? Как реализовывать смелые идеи в таких условиях?

Но тем не менее, мы одни из первых начали применять ИИ в промышленности и проводить цифровизацию процессов. То есть у нас активно внедряются современные технологии и реализуются смелые проекты. В портфеле СИБУРа сегодня более 30 реализованных кейсов на базе ИИ. В проработке 200+ гипотез и это число постоянно растет.

Для разработки и внедрения инноваций в СИБУРе есть Лаборатория Инноваций. А для разработок на базе искусственного интеллекта, мы организовали Лабораторию ИИ, но без пробирок и халатов, как многие могли представить, а с компами и дата-саентистами, занятыми тестированием гипотез, оценкой их потенциала, созданием и обучением моделей и многим другим интересным.

Устройство и предназначение Лаборатории Инноваций СИБУРа

Структура и задачи Лаборатории

Задачи Лаборатории:

скаутинг решений под потребности функциональных подразделений внутри СИБУРа;
пилотирование внешних цифровых решений;
мониторинг и анализ технологических трендов;
открытие новых исследовательских направлений;
взаимодействие с инновационной инфраструктурой (институты развития, инновационные компании, акселераторы и венчурные фонды).

Из-за того, что по искусственному интеллекту у нас набрался большой пул достойных внимания гипотез, мы сделали отдельную Лабораторию. Если к какому-то другому направлению будет столько интереса и гипотез для разработки, под них также могут открываться Лаборатории. То есть мы открыты не только для ИИ, но и для других инноваций.

Помимо ИИ нас интересуют и другие современные тренды. Например, мы смотрим в сторону квантовых вычислений — прорабатываем гипотезы применения квантовых вычислений для задач компании. А когда в России появятся свои квантовые вычислительные мощности, мы уже будем понимать потенциал их внедрения в свои процессы.

Зачем СИБУРу Лаборатория инноваций

Важный вопрос: а зачем, собственно, нам целая Лаборатория? CИБУР — это такая компания, которая открывает проекты, руководствуясь экономической целесообразностью. Все проекты проходят жесткий скрининг на тему затрат и экономического эффекта. И никто не запустит проект просто потому, что на словах идея крутая, а конкретики нет.

Поэтому все идеи нужно как-то валидировать и оценивать. Но далеко не по всем идеям проектов можно сказать, какой будет экономический эффект и будет ли он вообще. Вдобавок, есть большая неопределенность, получится ли его реализовать.

Для таких «проектов”, которые ещё не стали проектами, а существуют на уровне гипотез, была создана Лаборатория, в которой мы тестируем эти гипотезы.

Лаборатория — это место, где мы можем ошибаться. В рамках проекта ошибаться нельзя. Если проект открыт, он должен быть успешным. В рамках Лаборатории, соответственно, гипотеза может не оправдать ожиданий.

В Лаборатории мы можем проверить гипотезы маленькими усилиями с небольшим бюджетом. Большие проекты — это всегда затратно. А тут можно силами нескольких специалистов сделать MVP и понять, насколько идея рабочая. Если гипотеза успешно пройдёт оценку и тестирование, она перейдет в проект на реализацию.

Откуда гипотезы и как оцениваем

Источником запросов на рассмотрение гипотез по направлению искусственного интеллекта для Лаборатории часто являются коллеги из разных подразделений.

По состоянию на конец декабря 2024 года у нас в работе больше 200 гипотез. И каждую из них мы оцениваем по нескольким критериям:

Наличие данных в компании, чтобы предварительно оценить гипотезу. Если данные есть, мы можем их взять, проанализировать и двигаться к следующему этапу оценки.
Экономический эффект для компании. Конечно, мы не можем посчитать экономический эффект полностью на начальных этапах, но примерное представление о масштабах эффекта получить можем. Например, если у нас всё получится, то это будет 10 или 100 млн рублей в год.

После предварительной оценки гипотезы отвергаются либо берутся в работу. Гипотезы, которые прошли скрининг, прорабатываются. Мы смотрим, насколько они актуальны и востребованы в компании, чтобы определить приоритетность.

Например, если какой-нибудь чат-бот помогает автоматизировать работу одного человека, то приоритет будет невысоким. А если это инструмент, который помогает сотне человек в компании, то приоритет будет выше. А если ещё этот инструмент имеет потенциальный экономический эффект в 100 млн рублей — конечно, приоритет будет отдан ему.

Модный LLM и классический ML

Все гипотезы, разрабатываемые в Лаборатории ИИ, можно разделить на две категории, в которых мы применяем либо классический Machine Learning (ML) либо Large Language Models (LLM).

Специфика двух этих направлений в том, что LLM — новая перспективная технология с большим потенциалом. В то время как классический ML с нами уже давно. С начала цифровизации в СИБУРе реализовано множество проектов, которые за семь лет в общей сложности принесли компании более 50 млрд рублей (на конец 2024 года), и половина этой прибыли приходятся на ML-проекты — это весьма внушительная цифра. Но это не значит, что потенциал LLM менее значителен, просто он ещё не раскрыт.

В список задач по LLM часто входит поиск информации в базе знаний для суммаризации и выводов, поиск информации для написания статей. В общем, всё то, что выдает результат в виде текста.

В классическом ML значительный блок задач связан с нашим R&D. Это то, что делается для экспериментов в области нефтехимии, маркировки полимеров. То есть с помощью ML решаются прикладные задачи.

Примеры задач ML:

Маркировка полимеров для защиты от контрафакта.
Цифровое моделирование полимерных структур для решения прикладных задач синтеза, переработки полиолефинов.

Инфраструктура и безопасность для ИИ-проектов

Для решения задач в классическом ML мы используем собственную инфраструктуру.

В работе с LLM для обкатки гипотез мы используем различные опенсорсные модели, а также GigaChat Сбера. Часть гипотез уже подтвердились и готовятся к запуску в проекты в ближайший год.

Важный вопрос в обучении языковых моделей во внешних вычислительных контурах — безопасность. Чтобы исключить какие-либо риски, мы обеспечиваем максимальную обезличенность данных — убираются все связки с реальными названиями.

В ближайшем будущем мы собираемся развернуть собственную инфраструктуру с достаточной вычислительной мощностью для реализации проектов с применением больших языковых моделей во внутреннем информационном контуре.

Перспективные гипотезы в работе

Ну и немного поговорим о том, над чем сейчас работает Лаборатория ИИ.

Анализ трубопроводов — ML

Один из заметных кейсов сейчас в работе — поиск дефектов на трубопроводах с помощью дронов. Дроны летают вдоль труб и снимают видео в инфракрасном спектре. Этот видеопоток анализируют ML-алгоритмы и, если обнаруживаются визуальные аномалии или признаки поломок, программа оповещает инженеров.

Реализация этого кейса позволит экономить человеко-часы, повысить эффективность мониторинга, а также автоматизировать процесс сбора и обработки соответствующих данных.

Генерация тестов — LLM

Ещё один кейс связан с вопросами по охране труда и обучению персонала. Когда нужно проверить квалификацию или как усвоился курс обучения, сотрудники проходят тестирование. Тесты постоянно нужно обновлять, потому что появляются шпаргалки, люди списывают, и вся схема ломается.

Придумывать каждый раз новые тесты трудозатратно. Поэтому мы сейчас тестируем модель, которая на основе всех знаний и нормативов, которые у нас есть, будет генерировать вопросы и ответы для проверки знаний сотрудников.

Для заводов очень актуальная история. И не только для заводов.

Генерация текстов — LLM

Также есть кейс с моделью, которая генерирует тексты из нашей базы знаний в Confluence. Реализация этой гипотезы позволит писать пресс-релизы, статьи, планы презентаций и так далее.

То, что вы сейчас читаете, могло бы быть сгенерировано искусственным интеллектом, и нам не пришлось бы тратить время на созвоны, обсуждения, итерации. Просто посмотрели бы, поправили немного, окнули и выложили на SE7EN. Супер.

Но пока это только в работе.

Не всё получается

Далеко не все гипотезы получается реализовать. И если посчитать, сколько гипотез оказываются по тем или иным причинам неуспешными, получится примерно 50 на 50. Но это не плохо, в этом и есть смысл Лаборатории, здесь можно ошибаться. Если бы всё сразу получалось, зачем тогда Лаборатория? Можно было бы сразу открывать проект.

Например, была интересная гипотеза по закупкам. Стояла задача прогнозирования объема заявок на закупку различной продукции. Чтобы можно было закупать что-то заранее и снизить риск простоя производства. Мы неплохо продвигались, но так и не смогли построить модели с требуемым качеством прогноза.

Чтобы модель работала, нам нужно было дать ей наиболее полный объём данных, в котором паттерны как-то взаимосвязаны с событиями, что даёт возможность строить прогнозы.

Кроме того, чтобы модель работала корректно, ей нужен полный набор данных. Но полноту не всегда получается обеспечить, потому что есть человеческий фактор. Также данные могут быть некорректными.

Одна из самых популярных причин неудач в разработке гипотез, это неконсистентность или недостаточность данных, в которых не учтены все факторы. Над этой проблемой в СИБУРе активно работают, недавно вышли статьи про то, как мы импортозамещали наш Data Quality стек, и как он работает.

В следующих статьях мы расскажем больше о наших проектах с применением ИИ. Если будут какие-то вопросы или захотите поделиться мнением — пишите комментарии, обсудим.

Источник