Сбер представил общественности GFusion — свою дебютную диффузионную языковую модель. Проект носит экспериментальный характер и базируется на технологиях GigaChat. Эксперты компании поясняют, что традиционные нейросети выстраивают текст строго последовательно, из-за чего при необходимости правки одной ошибки системе приходится пересобирать весь ответ целиком.

Принцип функционирования GFusion кардинально отличается: модель формирует «черновой вариант» ответа, который затем итеративно уточняется — подобный механизм используется при создании визуального контента нейросетями. Благодаря параллельной обработке данных GFusion демонстрирует внушительный прирост производительности: внутренние испытания Сбера показали, что она работает до 45% оперативнее своей предшественницы, GigaChat 3.
Авторы проекта подчеркивают, что диффузионный подход обеспечивает не только скорость, но и исключительную гибкость генерации. Модели больше не ограничены жестким алгоритмом написания слева направо: система способна самостоятельно определять, какой фрагмент текста требует детализации на конкретном этапе. Кроме того, такой подход позволяет эффективнее использовать обучающие выборки, извлекая максимум знаний при многократном проходе по одним и тем же массивам данных.
Специалисты Сбера называют диффузионные языковые модели одним из наиболее многообещающих и технологически сложных рубежей в сфере генеративного ИИ. GFusion стала первой в России диффузионной моделью подобного уровня, доступной в рамках open-source сообщества. В дополнение к ней компания открыла доступ к специализированному инструментарию для оптимизации процесса обучения диффузионных систем.
Источник: iXBT


