Вчера все каналы о Stable Diffusion и нейросетях пестрели заголовками об утечке и сливе (или «утечке» и «сливе») моделей SDXL 0.9, но почему-то без примеров рисунков от авторов блогов и каналов.
Я решил поступить иначе: не писал про утечку, зато немного порисовал на SDXL 0.9, расстроился и решил поделиться мыслями о модели с вами.
Инструкция по установке
На момент написания поста Automatic1111 не поддерживает работу с моделями SDXL. Чтобы удовлетворить любопытство и порисовать нам потребуется установить ComfyUI — невероятно мощный WebUI для работы со StableDiffusion.
Если вы не знакомы с нодами — не пугайтесь, есть ссылка на набор готовых нод для рисования именно на моделях SDXL (я немного модифицировал оригинал с Reddit).
- Подготовка: у вас уже должны быть установлены и прописаны в PATH Python 3.10.6 и git.
-
В консоли (находясь в любой папке) прописываем команду и дожидаемся её выполнения
pip install torch torchvision torchaudio —extra-index-url https://download.pytorch.org/whl/cu118 xformers
-
Вызываем консоль в папке, куда будем устанавливать ComfyUI (кликаем в адресной строке проводника, удаляем всё, пишем cmd, жмём энтер на клавиатуре), выполняем команду, дожидаемся выполнения
- Переходим в папку со скачанным ComfyUI и выполняем в консоли командуpip install -r requirements.txt
- Скачиваем модели и vae, кладём скачанные файлы в соответствующие папки ComfyUI\models.
- Запускаем файл main.py, в браузере переходим по адресу http://127.0.0.1:8188
- Перетаскиваем файл пайплайна в окно ComfyUI, выбираем модель и рефайнер, пишем промпт и негатив, рисуем, расстраиваемся
Если на этапе 6 в консоли выпадает ошибка «Torch not compiled with CUDA enabled», то закрываем сервер, в командной строке выполняем две команды и перезапускаем сервер
pip uninstall torchpip install torch torchvision torchaudio —extra-index-url https://download.pytorch.org/whl/cu118 xformers
Сравниваем работы SDXL 0.9 и SD 1.
При сравнении использовались лишь промпты, прочие настройки (семплер, шаги, сид и прочее) не актуальны из-за серьёзной разницы между моделями.
Почему у SDXL нет будущего?
Основные недостатки рисунков на SDXL, которые сразу бросятся вам в глаза:
- SDXL совершенно не слушается привычных по моделям 1.5 промптов. Примеры в посте.
- SDXL СТРАННО работает с фокусом: два соседних участка изображения могут быть в фокусе и расфокусе.
- Разорванные горизонты и прочие несостыковки в кадре
- Модель слишком сильно старается быть похожей на Midjourney и пытается улучшить картинку даже там, где улучшение не требуется.
Попробую раскрыть эту мысль подробнее. Помните какой бум случился после релиза оригинальных sd-v1-5? Как начали появляться сотни руководств по установке автоматика, скачиванию моделей и промптингу? Я не помню, честно.
Спустя несколько месяцев в сеть утекли непубличные модели NovelAI, тут-то всё и завертелось. Инструкции по установке автоматика, скачиванию модели и рисованию аниме, в течение недели появились на всех языках мира. Кастомные (хехе) модели появлялись в базах данных быстрее, чем грибы после дождя в лесу. Количество блогов росло по экспоненте, суммарное качество оставалось на одном уровне.
Затем появилась civitai со всеми нашими любимыми моделями. И рисование на диффузиях стало именно таким, каким мы его знаем сегодня.
А всё почему?
Людям интересно рисовать голых аниме девочек, а больше им ничего не интересно. И один я, чудила, рисую на аниме моделях пейзажи (промпт).
StabilityAI откроет собственный платный генератор рисунков и попытается конкурировать с Midjourney. Бог им в помощь!
Чтобы не заканчивать пост на грустной ноте порекомендую свои руководства по Stable Diffusion:
- Как задать ракурс камеры без ControlNet?
- Обзор и сравнение 5 редакторов поз для ControlNet вместо posex
В комментариях с удовольствием отвечу на вопросы о SDXL.
Рисую на Stable Diffusion, буду рад вашим лайкам.
Буду рад видеть вас на техническом канале о Stable Diffusion, где выпускаю обзоры расширений и инструментов, пишу про использование токенов, и показываю красивые модели.