«Сбер» представил обновлённую версию нейросети Kandinsky для генерации изображений по текстовому запросу

Она умеет также смешивать несколько картинок или создавать изображение на основе другого.

«Сбер» представил обновлённую версию нейросети Kandinsky для генерации изображений по текстовому запросу

  • Kandinsky 2.1 — улучшенная версия одноимённой нейросети, которую «Сбер» представил в июне 2022 года. Это уже не первое обновление, версию Kandinsky 2.0 показали в ноябре 2022-го.
  • Воспользоваться ею можно на сайте, при помощи команды «Запусти художника» на «умных» устройствах Sber, в приложении «Салют», на платформах ML Space и Fusion Brain, а также в Telegram-боте.
  • Модель дополнительно обучили на 170 млн пар «текст — изображение», а затем дообучали на отдельно собранном датасете из 2 млн пар изображений. В Kandinsky 2.0 было 2 млрд параметров, в Kandinsky 2.1 — 3,3 млрд.
  • Нейросеть также усовершенствовали за счёт новой обученной модели автоэнкодера (автокодировщик; нейросеть, которая сначала кодирует входные данные, а потом декодирует их в другом виде — прим. vc.ru), которая используется в том числе в качестве декодера векторных представлений изображений. Это улучшило генерацию изображений в высоком разрешении — лиц и других сложных объектов.
  • Kandinsky 2.1 может создавать изображения по текстовому описания. Также она умеет изменять их по текстовому запросу, смешивать несколько рисунков, дорисовывать недостающие части, генерировать изображения, похожие на заданное и другое. Кроме этого, она использует для генерации специальное представление картинки от CLIP — классификатора изображений от OpenAI.
  • Нейросеть понимает запросы на 101 языке — включая русский и английский. Обучали модель исследователи Sber AI и учёные из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и SberDevices.

#сбер #нейросети #новости

 

Источник

Читайте также