Мощный генератор картинок Midjourney: подробная инструкция по применению

В сети представлено множество завораживающих иллюстраций, чьё авторство приписывают нейросетям, и обыватель часто замирает перед экраном в лёгком недоумении. Буквально десятилетие назад подобный уровень цифровой живописи требовал от художника долгих часов кропотливого труда, но сейчас визуальный бомонд активно пополняется искусственным интеллектом. Глядя на эту грандиозную эволюцию, многие считают, что освоить такие инструменты под силу лишь избранным программистам со специальным образованием, но на самом деле порог вхождения довольно низок. Устав от суеты классических графических редакторов, пользователи массово переходят к текстовым командам. Но чтобы не ошибиться в начале пути и не слить бюджет впустую, нужно разложить по полочкам механику взаимодействия с этим удивительным алгоритмом.

С зелёной иконки улыбающегося инопланетянина на чёрном фоне часто начинается погружение в этот дивный новый мир. Речь идёт о мессенджере Дискорд. Ведь именно он служит единственным мостом между человеком и вычислительными мощностями нейросети. С воздухообменом тут, конечно, сравнивать неуместно, но без этой программы дышать в экосистеме генератора попросту не выйдет. Сначала создаётся добротный базовый аккаунт на платформе мессенджера, затем происходит переход на официальный сайт разработчиков ИИ, завершающийся нажатием заветной кнопки присоединения к серверу. Процесс не сложный, но кропотливый. Оседает основная масса новичков в общих комнатах, называемых ньюби-каналами. И всё-таки задерживаться там надолго нет смысла. Слишком уж быстро чужие работы смещают ваши собственные картинки вниз по ленте. Лучше сразу добавить бота на свой личный сервер. Это удобно. Потому что ничто не будет отвлекать от творческого процесса.

Сложно ли инициировать процесс? Вовсе нет. В строке чата вводится косая черта, вызывающая всплывающее меню доступных команд. К слову, львиная доля успеха зависит от правильного выбора пункта Imagine. После клика по нему появляется текстовое поле, ожидающее описания желаемой сцены строго на английском языке. А вот оригинальное название вашей задумки придётся перевести заранее, если иностранная лексика даётся вам с трудом. Начинать стоит с простых и понятных концепций. Появится на экране квартет черновых набросков примерно через сорок пять секунд. Дело в том, что мощным серверам требуется время на интерпретацию текста в пиксели. Ну и, конечно же, под каждым изображением всплывут кнопки с латинскими буквами, открывающие путь к дальнейшей редактуре.

Масштабирование

Задача не из лёгких. Особенно когда глаза разбегаются от предложенных ботом вариантов. К первой группе кнопок относится литера U, отвечающая за увеличение конкретного кадра из предложенной четвёрки. Раньше этот процесс сопровождался добавлением мелких деталей, однако сейчас система просто вытягивает разрешение, делая картинку более чёткой. Далее следует ряд кнопок с буквой V. Нажатие на них провоцирует нейросеть на создание новых вариаций на базе выбранной картинки. Ведь всегда хочется докрутить понравившийся концепт, не теряя изначальной атмосферы. Ну, а кнопка с круговыми стрелками перезапускает генерацию полностью. Стоит отметить, что каждая такая манипуляция отнимает драгоценные минуты машинного времени. Да и самому серверу комфортнее работать с осмысленными запросами, а не с бесконечным нажатием кнопки обновления.

Архитектура текстового запроса

Настоящий кладезь возможностей кроется в умении грамотно формулировать свои мысли. Главное — угадать с последовательностью слов. С чего начинается выбор? С определения главного объекта. Сначала вписывается основной субъект, окружённый нужным освещением, помещённый в конкретную локацию, стилизованный под определённую эпоху. Заслуживает истинного уважения подход тех мастеров, которые скрупулёзно прописывают тип виртуальной камеры и точное фокусное расстояние объектива (например, тридцать пять миллиметров). И всё же не стоит перебарщивать с длиной описания. Вся суть в том, что избыточные полотна текста путают машину, заставляя её игнорировать важные нюансы. Тем более, что вес первых слов всегда выше, чем тех, что плетутся в самом конце предложения.

Тонкая настройка

Двойные дефисы в конце строки творят настоящие чудеса. Именно за ними скрываются самые важные технические параметры алгоритма. Задавать пропорции сторон стоит комбинацией букв ar, дополненной нужными цифрами. Следующий важный критерий регулирует степень художественности, подчиняясь команде stylize. Если выставить максимальное значение в тысячу единиц, результат получится крайне вычурным, отдаляясь от исходной задумки автора. А вот параметр chaos привносит элемент непредсказуемости. Он заставляет алгоритм генерировать абсолютно непохожие друг на друга черновые варианты. Разумеется, не стоит забывать о выборе версии движка. Шестая итерация справляется с фотореализмом гораздо лучше своих предшественников. Отдельно стоит упомянуть параметр niji, который моментально переводит любую сцену в колоритный самобытный стиль японской анимации.

Стоит ли экономить?

Финансовый вопрос всегда вызывает лёгкий трепет у начинающих творцов. С одной стороны, разработчики когда-то предлагали бесплатные тестовые попытки, с другой — сейчас эта лавочка практически закрыта. Ежемесячная подписка — суровая необходимость. Серьёзное вложение потребуется от тех, кто планирует генерировать тысячи иллюстраций без перерыва на сон. Базовый тарифный план обойдётся ровно в десять американских долларов. Кошелёк станет легче, зато пользователь получит доступ к двум сотням быстрых генераций в месяц. Однако спектр возможностей не ограничивается дешёвыми тарифами. Стандартная подписка стоит в три раза дороже. Впрочем, она открывает доступ к безлимитному режиму Relax. В этом состоянии картинки создаются медленнее, зато лимиты не тают на глазах. Нет смысла переплачивать на старте, пока вы только нащупываете свой уникальный стиль.

Подводные камни генерации

Идеальных технологий пока не существует. Ложка дёгтя в этой огромной бочке цифрового мёда обязательно найдётся. Зрелище порой удручающее, когда у прекрасного портрета натыкаешься на лишние пальцы или переплетённые неестественным образом конечности. Хотя и инженеры постоянно улучшают код, но сложные анатомические нюансы всё ещё даются машине тяжело. Обязательно ли мириться с этим браком? Вовсе нет. Выручит инструмент локальной перерисовки, называемый Vary Region. Он позволяет выделить проблемный участок квадратным лассо, отправить его на доработку, получив в итоге приемлемый результат. К тому же текст на самих картинках генерируется с огромным трудом. Обе стороны медали здесь очевидны: шестая версия уже способна выводить короткие слова, однако полноценные длинные абзацы мгновенно превращаются в инопланетную наляпистость. Безусловно, со временем эти шероховатости полностью исчезнут.

Продвинутые техники

Обычный текстовый ввод — это лишь вершина огромного айсберга. Настоящие чудеса начинаются при использовании функции смешивания. Команда blend позволяет загрузить от двух до пяти собственных фотографий, превращая их в единую цельную композицию. Странное чувство вызывает этот процесс. Ведь алгоритм берёт текстуру одного снимка, накладывает на геометрию другого, выдавая совершенно непредсказуемый колоритный шедевр. А если ещё вспомнить про инструмент describe, то работа становится невероятно увлекательной. Эта команда работает в обратном порядке. Вы загружаете готовую картинку, а умный бот выдаёт четыре варианта текстового описания, объясняя вам, какими словами можно создать нечто подобное. Это просто спасательный круг для тех, кто страдает от нехватки идей.

Стилевые референсы

Сохранять единый визуальный стиль на протяжении многих генераций всегда было мучением. Буквально год назад пользователи придумывали сложнейшие махинации с кодом, пытаясь заставить нейросеть рисовать комиксы в одной цветовой гамме. Но разработчики внесли свою лепту, добавив параметр sref. Теперь достаточно прикрепить ссылку на идеальное изображение в конце запроса, чтобы бот перенял его атмосферу, палитру, манеру мазка. Это же правило касается и внешности персонажей. Параметр cref фиксирует лицо выдуманного героя, позволяя помещать его в любые мыслимые и немыслимые локации без потери узнаваемости. Приковывает внимание тот факт, что вес этих ссылок тоже можно регулировать. Не перегружайте запрос множеством референсов одновременно. Алгоритм просто растеряется, пытаясь угодить всем вашим требованиям сразу.

Покорение нейросетевых просторов требует искреннего терпения и изрядной доли здорового авантюризма. Не скупитесь на смелые эксперименты с необычными художниками, смешивайте абсолютно несочетаемые исторические эпохи, не бойтесь абсурдных концепций.

Каждая сгенерированная иллюстрация делает вас на шаг ближе к пониманию этого невероятно сложного механизма. Творческий процесс обязательно принесёт массу удовольствия, а созданный собственными руками визуальный антураж порадует домочадцев и коллег. Удачи в бесконечном создании ваших смелых цифровых шедевров!