Почему будущего не у модели SDXL? (+инструкция по установке SDXL)

07.07.2023 Прокомментировать Просмотры: 69

Вчера все каналы о Stable Diffusion и нейросетях пестрели заголовками об утечке и сливе (или «утечке» и «сливе») моделей SDXL 0.9, но почему-то без примеров рисунков от авторов блогов и каналов.

Я решил поступить иначе: не писал про утечку, зато немного порисовал на SDXL 0.9, расстроился и решил поделиться мыслями о модели с вами.

Инструкция по установке

На момент написания поста Automatic1111 не поддерживает работу с моделями SDXL. Чтобы удовлетворить любопытство и порисовать нам потребуется установить ComfyUI — невероятно мощный WebUI для работы со StableDiffusion.

Если вы не знакомы с нодами — не пугайтесь, есть ссылка на набор готовых нод для рисования именно на моделях SDXL (я немного модифицировал оригинал с Reddit).

При скачивании обратите внимание на расширение моделей (должно быть safetensors). Расширение ckpt или любое другое — лучше обойти стороной и скачать в другом месте.

Подготовка: у вас уже должны быть установлены и прописаны в PATH Python 3.10.6 и git.
В консоли (находясь в любой папке) прописываем команду и дожидаемся её выполнения

pip install torch torchvision torchaudio —extra-index-url https://download.pytorch.org/whl/cu118 xformers
Вызываем консоль в папке, куда будем устанавливать ComfyUI (кликаем в адресной строке проводника, удаляем всё, пишем cmd, жмём энтер на клавиатуре), выполняем команду, дожидаемся выполнения

git clone https://github.com/comfyanonymous/ComfyUI
Переходим в папку со скачанным ComfyUI и выполняем в консоли командуpip install -r requirements.txt
Скачиваем модели и vae, кладём скачанные файлы в соответствующие папки ComfyUI\models.
Запускаем файл main.py, в браузере переходим по адресу http://127.0.0.1:8188
Перетаскиваем файл пайплайна в окно ComfyUI, выбираем модель и рефайнер, пишем промпт и негатив, рисуем, расстраиваемся

Если на этапе 6 в консоли выпадает ошибка «Torch not compiled with CUDA enabled», то закрываем сервер, в командной строке выполняем две команды и перезапускаем сервер
pip uninstall torchpip install torch torchvision torchaudio —extra-index-url https://download.pytorch.org/whl/cu118 xformers

Сравниваем работы SDXL 0.9 и SD 1.

При сравнении использовались лишь промпты, прочие настройки (семплер, шаги, сид и прочее) не актуальны из-за серьёзной разницы между моделями.

Почему у SDXL нет будущего?

Основные недостатки рисунков на SDXL, которые сразу бросятся вам в глаза:

SDXL совершенно не слушается привычных по моделям 1.5 промптов. Примеры в посте.
SDXL СТРАННО работает с фокусом: два соседних участка изображения могут быть в фокусе и расфокусе.
Разорванные горизонты и прочие несостыковки в кадре
Модель слишком сильно старается быть похожей на Midjourney и пытается улучшить картинку даже там, где улучшение не требуется.

Но всё это могло бы не иметь значения, если бы в датасете были NSFW изображения и модель умела бы рисовать ВСЁ, что её попросят.

Попробую раскрыть эту мысль подробнее. Помните какой бум случился после релиза оригинальных sd-v1-5? Как начали появляться сотни руководств по установке автоматика, скачиванию моделей и промптингу? Я не помню, честно.

Спустя несколько месяцев в сеть утекли непубличные модели NovelAI, тут-то всё и завертелось. Инструкции по установке автоматика, скачиванию модели и рисованию аниме, в течение недели появились на всех языках мира. Кастомные (хехе) модели появлялись в базах данных быстрее, чем грибы после дождя в лесу. Количество блогов росло по экспоненте, суммарное качество оставалось на одном уровне.

Затем появилась civitai со всеми нашими любимыми моделями. И рисование на диффузиях стало именно таким, каким мы его знаем сегодня.

А всё почему?

Людям интересно рисовать голых аниме девочек, а больше им ничего не интересно. И один я, чудила, рисую на аниме моделях пейзажи (промпт).

Без возможности рисовать NSFW модели SDXL принципиально неинтересны файн-тюнерам.
Без интереса файн-тюнеров не будет новых кастомных моделей на базе SDXL.
Без новых кастомных моделей у поколения SDXL нет будущего. Повторится история 2.0 и 2.1.

StabilityAI откроет собственный платный генератор рисунков и попытается конкурировать с Midjourney. Бог им в помощь!

Чтобы не заканчивать пост на грустной ноте порекомендую свои руководства по Stable Diffusion:

В комментариях с удовольствием отвечу на вопросы о SDXL.

Рисую на Stable Diffusion, буду рад вашим лайкам.

Буду рад видеть вас на техническом канале о Stable Diffusion, где выпускаю обзоры расширений и инструментов, пишу про использование токенов, и показываю красивые модели.

Источник