Она умеет также смешивать несколько картинок или создавать изображение на основе другого.
- Kandinsky 2.1 — улучшенная версия одноимённой нейросети, которую «Сбер» представил в июне 2022 года. Это уже не первое обновление, версию Kandinsky 2.0 показали в ноябре 2022-го.
- Воспользоваться ею можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.
- Модель дополнительно обучили на 170 млн пар «текст — изображение», а затем дообучали на отдельно собранном датасете из 2 млн пар изображений. В Kandinsky 2.0 было 2 млрд параметров, в Kandinsky 2.1 — 3,3 млрд.
- Нейросеть также усовершенствовали за счёт новой обученной модели автоэнкодера (автокодировщик; нейросеть, которая сначала кодирует входные данные, а потом декодирует их в другом виде — прим. vc.ru), которая используется в том числе в качестве декодера векторных представлений изображений. Это улучшило генерацию изображений в высоком разрешении — лиц и других сложных объектов.
- Kandinsky 2.1 может создавать изображения по текстовому описания. Также она умеет изменять их по текстовому запросу, смешивать несколько рисунков, дорисовывать недостающие части, генерировать изображения, похожие на заданное и другое. Кроме этого, она использует для генерации специальное представление картинки от CLIP — классификатора изображений от OpenAI.
- Нейросеть понимает запросы на 101 языке — включая русский и английский. Обучали модель исследователи Sber AI и учёные из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices.