Команда СберБанка объявила о запуске нейросети ruDALL-E, которая способна создавать изображения на основе текстового описания на русском языке. Как отмечает пресс-служба, это первая в мире подобная нейронная сеть.
Протестировать работу ruDALL-E могут все желающие, но придётся немного подождать. Сервис сразу об этом предупреждает и сообщает приблизительное время до готовности изображения. На момент написания новости для генерации картинки по описанию «Няшный котик читает iPhone» сервису потребовалось 9 минут. Результат получился такой:
Нейросеть одновременно обучается на двух видах данных — картинках и текстах, и позволяет создавать неограниченное число новых изображений по заданному описанию.
Моделью ruDALL-E XL (1,3 миллиарда параметров) можно воспользоваться бесплатно, загрузив её с Github.
Создание изображений при помощи ruDALL-E происходит в три этапа: сначала одна нейросеть получает текст и генерирует заданное число картинок, затем следующая выбирает, какие из них наиболее удачны и максимально соответствуют описанию, а третья увеличивает их в размере без потери качества. Таким образом можно получить неограниченное количество новых изображений, подходящих под указанные характеристики.
Ознакомиться с примерами сгенерированных картинок можно здесь.
Источник: iXBT