Делаем это с помощью нейросетей Midjourney, Different Dimension Me и Stable Diffusion
Прошлый год как нельзя лучше показал, что нейросети уже способны не просто выдавать качественный визуальный контент, но и даже соревноваться с реальными художниками. А это значит, что каждый с помощью таких сервисов может почувствовать себя творческим человеком. Давайте попробуем самые популярные нейросети.
Midjourney
Это одна из самых знаменитых нейросетей, регулярно фигурирующая в заголовках новостей. Midjourney способна рисовать картины по текстовому описанию. Однако насколько качественным получится результат, зависит от текстового запроса. Именно поэтому его важно составить как можно точнее.
Взаимодействием с нейросетью производит посредством Discord. Если у вас еще нет аккаунта, то его нужно создать. Далее вступите на сервер Midjourney. После того, как вы примете приглашение, сервер должен появиться в левой части с расположением всех серверов. Нажмите на иконку:
Сразу же отметим, что бесплатно у каждого пользователя ограниченное число запросов — доступно 25 GPU-минут или чуть больше 40 картинок. Соответственно, потратить эти попытки лучше максимально продуктивно.
Делать текстовые запросы на создание арта можно двумя способами:
- На сервере Midjourney. Новым пользователям необходимо перейти в одну из комнат для новичков (newcomer rooms) и зайти в один из чатов с названием «newbies». Именно в нем вы будете писать запросы.
- На своем сервере. Вы можете добавить бот Midjourney на свой сервер Discord. Для этого нажмите в правой части окна на бота Midjourney и кликните по синей кнопке «Добавить на сервер». Естественно, предварительно нужно создать свой сервер, делается это в пару кликов через иконку «+» в левой части.
В первом случае результат будет выдаваться в общее окно чата. Плохо это по той причине, что в быстром потоке других сообщений ваш арт может затеряться — придется пролистывать. С другой стороны, вы сможете посмотреть на работы других участников и даже позаимствовать что-то из запросов себе.
Команды для работы с Midjourney
В первую очередь рекомендуем познакомиться с базовыми командами и сделать предварительные настройки. Для этого вбейте символ «/» в поле для набора сообщения. Бот выдаст базовые команды:
В «/info» вы можете посмотреть статус своей подписки, оставшееся число GPU-минут и другую полезную информацию. Через «/help» вы сможете узнать о других базовых командах, а также перейти на официальные англоязычные туториалы.
Команда «/imagine» — основная, через нее вы будете генерировать картинку с помощью последующего описания.
Также можете зайти в «/settings» — здесь можно установить следующие параметры:
- Версия сети. Актуальная Mj4. Niji mode — это еще одна версия, которая создает арты с упором в аниме. Первые версии могут выдавать не совсем корректные результаты.
- Mj Test — генерирует картинки с уклоном в живопись/рисунок. Mj TestP — в фотореализм. Не работает с четвертой версией.
- Style — определяет степень «артистизма». Very High задает значение «750». Чем выше, тем более мультяшными будут картинки.
- Quality — отвечает за качество. Чем оно выше, тем четче результат, но и больше GPU-минут тратится на создание картинки. Можно выставить среднее.
- Fast и Relax. Fast позволит предоставить результат почти мгновенно, но ценой больших затрат GPU-минут.
- Upscale. Значение Regular делает картинку четче, но может добавить зернистость. Light слегка замыливает результат, но делает его более живописным.
Настройки можно делать на свой вкус, но по бесплатной подписке доступны не все. Рекомендуем выставить самую последнюю версию нейросети.
Формируем команду на картинку
Чтобы сгенерировать картинки, вам необходимо ввести «/imagine Prompt», а после на английском языке задать тематические слова. Писать запросы можно и на других языках, но в этом случае результат может получиться достаточно далеким от требуемого. Определиться с запросами также помогут специальные помощники, например, этот или вот этот. Там вы можете подсмотреть ключевые слова и стили. Создадим следующий запрос:
«Cyberpunk sketch, cat, neon, red and orange –stylize 2500»
После генерации под картинкой будут доступны две группы кнопок. U — делает апскейл выбранного изображения, V — новые вариации картинки. Каждое из действий тратит доступные GPU-минуты, учитывайте это.
Запросы могут быть и более объемными, в том числе с указанием стилей:
«mixed gym equipment, flat design, illustrator»
«3d, ultra realistic, heavy detailed, fire-breathing green dragon destroying castle on mountaing, dramatic lightning, spooky clouds »
Чем точнее вы опишете, что именно и как должно быть изображено на картинке, тем интереснее получится результат.
Базовое описание — это только половина дела. Midjourney имеет ряд дополнительных команд для того, чтобы подстроить изображение под ваши нужды.
- –chaos Х, где Х = от 0 до 100. Чем выше параметр, тем более разными получатся сгенерированные картинки между собой.
- –creative, добавляет результату большую креативность и разнообразие.
- –hd, делает картинку большего разрешения, но возможна потеря мелких деталей.
- –ar x:y, где x — ширина, y — высота. Задает соотношение сторон, например, 16:9.
- –no x, где x — слово. Команда позволяет сгенерировать картинку без какого-то объекта. Например, сделать изображения пляжа без камней (–no rocks).
Полный список команд указан на официальной странице.
Помимо этого, для большей реалистичности стоит добавлять слова «hyper realistic», «detailed» и «photography». Однако уровень реалистичности и детализации не всегда возрастает при добавлении этих приставок. Например, эти два набора отличаются лишь приставками «hyper realistic» и «detailed», но разница не так очевидна на первый взгляд.
Можно также указывать конкретную стилистику, например «cartoon», «isometric» и стили отдельных художников. Как правило, нейросеть без труда распознает такие запросы.
Создание артов на базе собственных изображений
Создать арт можно, используя в качестве основы любую картинку. Для этого необходимо указать ссылку на одну или пару изображений, а после вписать ключевые слова.
Параметр –iw x, где X – число от 0.25 до 5 регулирует, насколько похожим получится картинка на исходник. Например, мы сделаем обработку фотографии Илона Маска в разных стилях. Конечно, нейросеть не всегда корректно определяет, мужчина или женщина изображены на фото — иногда это стоит уточнить в запросе.
Дополнительно вы можете «скрещивать» разные фотографии, например, Илона Маска и Тони Старка.
Midjourney позволяет не только сделать ваш арт еще более выразительным и индивидуальным, но и получитьы интересные комбинации аватарки для социальных сетей и просто потрясающие тематические изображения.
Отдельно рекомендуем попробовать сеть Niji, которая специализируется на аниме и более корректно распознает персонажей и стилистику этих произведений. Впрочем, можно генерировать и достаточно фотореалистичные арты.
Different Dimension Me
Говоря об аниме, китайские разработчики решили пойти еще дальше и сделали нейросеть, которая превращает любую фотографию в аниме-арт. В сети можно встретить сейчас две версии — мы говорим о вот этой Different Dimension Me от QQ World. Обратите внимание, что она может не запускаться через ПК (гарантирована работа на смартфоне) и без VPN (понадобится корейский или японский). В качестве альтернативы можно воспользоваться ботом для Telegram.
Каких-либо настроек здесь не предусмотрено — вы загружаете фото и получаете результат. В итоге получаются действительно проработанные аниме персонажи, но в некоторых случаях сходство с оригиналом относительно небольшое. При этом Different Dimension Me полностью сохраняет позу персонажа и даже прорабатывает одежду.
Справляется нейросеть даже с пейзажами и животными, делая их как будто нарисованными.
Different Dimension Me пусть и не гарантирует высокого сходства, но позволяет получить шикарные арты всего в пару кликов. У художников на такие работы ушли бы от нескольких часов до пары дней.
Второй сервис Different Dimension Me уже работает через браузер и по описанию аналогично превращает картинки в аниме. Однако на практике нейросеть просто выполняет стилизацию под рисунок, который лишь отдаленно напоминает аниме. Дополнительно здесь есть два режима — с уклоном к «роботизированному» рисунку и в сторону «стилизации». В последнем случае арт получается более естественным и проработанным.
С общими планами и мелкими деталями нейросеть практически не справляется — они превращаются в сплошную кашу.
Эта версия Different Dimension Me лучше всего подходит исключительно для портретов крупным планом.
Stable Diffusion
Если вы уже побаловались с Midjourney, попытки закончились, а хочется еще контента, то попробуйте схожую нейросеть под названием Stable Diffusion. Сервис стал доступен с августа прошлого года и уже сейчас способен выдавать арты высокого качества и проработки.
Работать с Stable Diffusion можно двумя способами — на своем собственном компьютере или через интернет. Первый способ предлагает больший функционал, но требует относительно мощной системы. Во-втором случае вам потребуется лишь браузер, но онлайн-сервисы имеют ограничения на число попыток и не всегда стабильно работают, особенно при большом потоке пользователей.
Использование Stable Diffusion на своем ПК
Для запуска вам потребуется видеокарта от nVidia серии GTX 10ХХ или новее. Желательно — 6-8 Гб видеопамяти. На моделях с 4 Гб памяти работа нейросети возможна, но без гарантии стабильности.
В первую очередь вам нужно скачать программу — выберите архив на 3 Gb. После потребуется распаковать архив в удобном месте. Желательно, ближе к корню диска и не употреблять в пути кириллицу.
После распаковки запустите исполнительный файл в папке.
В открывшемся окне запустите инсталлятор, кликнув по соответствующей иконке в правом верхнем углу.
Достаточно нажать кнопку Install — софт скачает и установит все компоненты. С интернетом 100 Мбит/с процесс занял 10 минут. По окончании процесса у вас должны стоять галочки напротив всех пунктов — это говорит об успешной установке.
После этого перейдите в настройки (шестеренка в правом углу) и укажите место для сохранения результатов. Также вы можете выбрать настройки низкого потребления памяти для слабых видеокарт. Все — можно приступать к генерации изображений!
Однако для начала давайте пройдемся по настройкам генерации.
- «Promt» вам необходимо на английском языке вбить свой запрос — здесь все так же, как с Midjourney.
- Второе поле со словом «negative» — это то, чего вы не хотите видеть на изображении. Аналог команды «–no» из Midjourney.
- Input DATA позволяет загрузить собственные изображения и уже экспериментировать с ними.
- Amount of Images — сколько картинок вы хотите сгенерировать.
- Generation Steps — сколько шагов ИИ сделает в попытке выполнить ваш запрос. В теории, чем больше шагов, тем дольше обрабатывается запрос и качественнее результат, но на практике улучшение заметно не всегда. В среднем требуется от 20 до 80 шагов.
- CFG Scale — степень участия ИИ. Значения 2-6 дает почти полную свободу нейросети. Значения 16-20 — минимальное отклонение от вашего запроса.
- Resolution — разрешение итоговой картинки.
- Seed — «зерно», базовый шум, который служит первоисточником для арта. Если вам понравилась какая-то сгенерированная картинка, то вы можете посмотреть ее «зерно» и использовать в качестве основы для других изображений.
- Sampling Method — метод отбора проб. Алгоритм, по которому будет создаваться новое изображение. Каждый из них способен дать хороший результат с определенным CFG.
- Generate Seamless — итоговые изображения будут похожи друг на друга.
Давайте введем наш запрос «Cyberpunk sketch, cat, neon, red and orange» на CFG = 8 при 50 шагах генерации и методе Euler A.
Теперь сменим метод на DDIM и число шагов до 10 при том же уровне CFG. Как можно заметить, этот метод немного хуже справился с запросом — частично из-за небольшого числа шагов.
Как показывает практика, каждый алгоритм хорош в определенном типе изображений. Например, адекватных котиков можно получить при следующем запросе: «Cute Cat», Sampler = PLMS, CFG = 7, Sampling Steps = 50. В таком случае результаты уже приближены к Midjourney.
Stable Diffusion любит длинные описательные запросы, в этом случае результат получается отличный. Однако многое зависит от настроек, здесь есть где экспериментировать.
Ключевое преимущество десктопной версии — возможность опробовать сторонние модели. Они обучены на конкретный стиль. Например, мы скачали модель по аниме Cyberpunk Edgerunners и попробовали сделать несколько артов.
Как использовать модель? Нужно скачать файл с разрешением «.ckpt» и поместить его в папку «data/models».
После этого в настройках программы из выпадающего списка выберете скачанную модель:
Чтобы задействовать каждую конкретную модель, необходимо прописать в начале запроса ключевое слово. Его указывают разработчики каждой модели в техническом описании. Вот несколько моделей для экспериментов (скачивание — вкладка «Files and versions»):
- Арты в стиле аниме студии Ghilbi;
- Арты в стиле современного Disney;
- Арты в стиле Dark Souls;
- Арты в стиле аниме Cyberpunk Edgerunners.
Если вы хотите без скачивания посмотреть, как работают эти модели, то есть демо-версия — сюда. В выпадающем списке выбираете стиль, устанавливаете параметры и жмете кнопку Generate.
Stable Diffusion через браузер
Если ваша видеокарта не подходит, то вполне можно использовать онлайн-сервис, например, Dezgo. В главном окне вам необходимо вбить запрос, а также указать версию нейросети. На момент написания статьи самой новой была версия 1.5, в то время как скачанный клиент — 1.8.1. С другой стороны, в Dezgo есть доступ к бета версии 2.1-b.
В дополнительных настройках вы можете выбрать ориентированность картинки (портрет/пейзаж), отрицательный запрос, аналог CFG и всего четыре алгоритма. Число шагов настраивать вы не сможете, поэтому уровень проработки всегда один.
Другой вариант — сайт Stable-diffusion, где вам уже доступен полный спектр настроек, но через браузер. Сервис работает на базе Nvidia A100 GPU. Главный минус — ограниченное число попыток. Мы же попробовали сгенерировать Киану Ривза в разных стилях.
А вот так развлекались другие пользователи. Во многом благодаря этим картинкам дам из Викторианской эпохи Stable Diffusion завирусилась в сети.
Подсмотреть развернутые запросы на конкретные темы и интересные результаты вы можете вот здесь.
Нейросети действительно приближаются по уровню качества к художникам и с легкостью имитируют определенные стили. Однако главная сложность заключается в том, чтобы нейросеть выдала требуемый результат. Для этого могут понадобиться десятки или сотни попыток.
Подготовлено по материалам Интернет-ресурсов