Руководство по генерации изображений в Midjourney: как создать арт с нуля

Ещё пару лет назад нейросети, способные рисовать по текстовому описанию, казались чем-то из разряда научной фантастики — забавной игрушкой для гиков, не более. А сейчас дизайнеры, маркетологи, блогеры и просто любопытные обыватели ежедневно генерируют тысячи изображений, не прикасаясь к графическому планшету. Львиная доля этого потока приходится на Midjourney — инструмент, который за считаные секунды превращает набор слов в довольно впечатляющий визуал. Но вот парадокс: при всей кажущейся простоте интерфейса новички нередко получают результат, далёкий от ожиданий. Дело в том, что между «написать пару слов в чат» и «создать действительно цепляющий арт» лежит целая пропасть нюансов, о которых и стоит поговорить подробнее.

Что такое Midjourney и почему вокруг столько шума?

Midjourney — это генеративная нейросеть, работающая через мессенджер Discord. Звучит непривычно, ведь большинство привыкло к веб-интерфейсам или отдельным приложениям. Однако именно такая привязка к Discord в своё время и сделала сервис столь популярным: порог входа оказался минимальным для всех, у кого уже был аккаунт в этом мессенджере. Команду создал Дэвид Хольц, бывший сооснователь Leap Motion, и первая публичная бета-версия увидела свет летом 2022 года. С тех пор нейросеть пережила несколько грандиозных обновлений — от версии 3, выдававшей довольно сюрреалистические картинки, до версии 6 и выше, где фотореализм порой вводит в заблуждение даже опытный глаз. К слову, в 2025 году появился и полноценный веб-интерфейс на сайте midjourney.com, так что привязка к Discord стала не обязательной, хотя многие по привычке продолжают работать именно там.

Стоит ли овчинка выделки? Безусловно. Midjourney тяготеет к художественности: даже без сложных промтов результат получается эстетичным. Это главная изюминка сервиса, отличающая его от конкурентов вроде DALL·E или Stable Diffusion. Но и подводные камни тут имеются — подписка бьёт по бюджету (от 10 долларов в месяц за базовый план), а бесплатный доступ то появляется, то исчезает.

С чего начать новичку?

Регистрация. Первым делом нужен аккаунт в Discord — если его ещё нет, на создание уйдёт от силы пара минут. Далее следует перейти на официальный сайт Midjourney и авторизоваться через Discord. После оплаты подписки открывается доступ к генерации. Впрочем, иногда команда Midjourney запускает пробные периоды, и тогда можно «пощупать» нейросеть без вложений — но рассчитывать на это постоянно не стоит.

Рабочее пространство устроено довольно просто. В Discord существуют специальные каналы (их названия обычно начинаются с «newbies»), где можно отправить свой первый запрос. А можно добавить бота Midjourney в личные сообщения или на собственный сервер — так результаты не затеряются в потоке чужих генераций. Именно второй вариант удобнее. Ведь в публичных каналах за минуту пролетают десятки чужих картинок, и отыскать свою — задача не из лёгких.

Промт — душа генерации

Промт (prompt) — это текстовое описание, которое пользователь отправляет нейросети. По сути, инструкция. И от того, насколько грамотно она составлена, зависит девяносто процентов результата. Многие новички допускают одну и ту же ошибку: пишут что-нибудь вроде «красивый пейзаж» и надеются на чудо. Нейросеть, конечно, выдаст картинку — но ведь понятие «красивый» у каждого своё. А вот описание «горное озеро на рассвете, туман над водой, сосны на берегу, мягкий золотистый свет, кинематографичная композиция» — это уже совсем другой разговор.

Вся суть в том, что Midjourney лучше воспринимает конкретные образы, чем абстрактные понятия. Не «грусть», а «девушка, сидящая у окна в дождливый вечер, отражение капель на стекле». Не «футуризм», а «неоновый город с летающими машинами, стиль Blade Runner, ночная сцена». Чем больше деталей — тем точнее результат. Но и тут важно не перегнуть палку. Промт длиной в пятьсот слов нейросеть переварит с трудом, да и не каждую деталь учтёт. Оптимальная длина — от двадцати до семидесяти пяти слов.

Как выстроить структуру промта?

Начать нужно с главного объекта. Это может быть персонаж, предмет, пейзаж — всё, что должно оказаться в центре внимания. Далее следует описание окружения: где происходит действие, какой фон, какое время суток. Следующий важный критерий — стиль. Именно стиль определяет «настроение» картинки: акварель, цифровая живопись, фотореализм, аниме, ретро-постер — вариантов масса. Ну и, наконец, технические параметры: освещение, ракурс, цветовая палитра. Всё это вписывается в одну строку через запятые.

Отдельно стоит упомянуть так называемые «стилевые якоря» — имена художников, фотографов, арт-направлений. Например, добавление «in the style of Alphonse Mucha» мгновенно окрашивает результат в характерную эстетику модерна с изящными линиями и цветочными орнаментами. А фраза «cinematic lighting, shot on 35mm film» сообщает нейросети, что нужен кинематографичный кадр с зернистостью плёнки. Это мощный инструмент, и пользоваться им стоит без стеснения. Однако не стоит перебарщивать: если в одном промте смешать Мунка, Миядзаки и Ван Гога, результат получится хаотичным.

Параметры и команды

Команда /imagine — с неё всё начинается. После ввода этой команды открывается поле для промта. Но помимо самого текстового описания, в конец строки можно дописать специальные параметры, которые тонко настраивают генерацию. Один из самых востребованных — —ar (aspect ratio), задающий соотношение сторон. По умолчанию картинка квадратная (1:1), но для горизонтального пейзажа логичнее указать —ar 16:9, а для вертикального портрета — —ar 2:3 или —ar 9:16.

Следующий параметр, на который стоит обратить внимание, — —stylize (сокращённо —s). Он определяет, насколько «художественно» нейросеть интерпретирует промт. Значение по умолчанию — 100. Если опустить его до 0, результат будет максимально буквальным, сухим. А если поднять до 1000 — Midjourney проявит творческую самобытность, добавит деталей от себя. Для коммерческих задач обычно хватает диапазона от 50 до 250, а вот для арт-экспериментов можно выкрутить и на максимум. К тому же существует параметр —chaos (от 0 до 100), отвечающий за разнообразие в выдаче четырёх вариантов. Высокий хаос — это когда все четыре картинки кардинально отличаются друг от друга. Низкий — когда результаты похожи между собой, отличаясь лишь в мелочах.

Что делать после первой генерации?

Четыре превью. После отправки промта нейросеть выдаёт сетку из четырёх изображений-миниатюр. Под ними располагаются кнопки с буквами U и V, пронумерованные от 1 до 4. Нажатие на U (upscale) увеличивает выбранный вариант до полного разрешения. Нажатие на V (variation) создаёт четыре новых варианта, похожих на выбранный, но с отличиями. Это довольно удобно, когда один из результатов почти попал в цель, но хочется чуть другой ракурс или настроение.

Есть ещё кнопка с иконкой повторения — она перезапускает генерацию с тем же промтом, но с новым «зерном» случайности. Нельзя не упомянуть и функцию Vary (Region), появившуюся в поздних версиях. С её помощью можно выделить конкретную область изображения и перегенерировать только её, оставив остальное нетронутым. По сути, это встроенный инпэйнтинг — спасательный круг для ситуаций, когда всё идеально, кроме, скажем, рук персонажа (а с руками у нейросетей по-прежнему дело обстоит неоднозначно).

Стоит ли морочиться с негативными промтами?

Ещё как стоит. Негативный промт — это указание на то, чего на картинке быть не должно. В Midjourney за это отвечает параметр —no. Например, —no text уберёт надписи и буквы (нейросеть их любит лепить куда попало), —no people исключит людей из сцены, а —no blur подскажет, что размытие нежелательно. Многие считают, что негативные промты — это мелочь, но на самом деле именно они часто спасают генерацию от кривых деталей. Тем более, что настроить их — дело пяти секунд.

Работа с изображениями-референсами

Помимо текста, Midjourney умеет принимать на вход картинки. Это настоящий кладезь возможностей для тех, кто точно знает, какой визуальный стиль ему нужен, но не может описать его словами. Достаточно вставить прямую ссылку на изображение в начало промта (перед текстовым описанием), и нейросеть примет его как ориентир. Можно загрузить фотографию в Discord, скопировать её URL и использовать как референс. А можно дать сразу два-три изображения — тогда Midjourney «смешает» их эстетику.

Параметр —iw (image weight) контролирует, насколько сильно нейросеть будет опираться на загруженную картинку. Значение по умолчанию — 1. Если поставить 0.5, текстовая часть промта возьмёт верх. Если же выкрутить до 2, изображение-референс станет доминировать. Это довольно тонкая настройка, и подобрать идеальный баланс с первого раза удаётся далеко не всегда. Но результат того стоит — особенно когда нужно выдержать единый добротный стиль для серии иллюстраций.

Версии модели и их особенности

Midjourney не стоит на месте. Буквально каждые несколько месяцев выходит обновлённая версия модели, и различия между ними бывают колоссальными. Версия 4, ставшая настоящим прорывом в конце 2022-го, впервые научилась генерировать убедительные лица. Пятая версия добавила фотореалистичности и точности в передаче деталей. А шестая — улучшила понимание длинных промтов и наконец-то более-менее сносно справилась с текстом на изображениях (хотя и далеко не идеально). Переключиться между версиями можно командой /settings или параметром —v в конце промта. Скажем, —v 6 принудительно активирует шестую версию.

Нужно отметить, что помимо основных версий существует модель Niji — специализированная ветка, заточенная под аниме-стилистику. Её создавали в сотрудничестве со Spellbrush, и результат приковывает внимание: персонажи получаются чистыми, с правильными пропорциями, в манере, характерной для японской анимации. Активация — через —niji или в настройках. Для любителей этого направления — вещь незаменимая.

Как добиться фотореализма?

Грезить о картинке, неотличимой от снимка с зеркальной камеры — вполне нормально. И Midjourney такое умеет. Но тут есть свои постулаты. Во-первых, в промте стоит использовать фотографическую лексику: «photo of», «Canon EOS R5», «85mm lens», «shallow depth of field», «natural lighting». Во-вторых, не стоит забывать про параметр —style raw. Он снижает «декоративность» Midjourney и заставляет нейросеть генерировать более натуральные, менее «приукрашенные» изображения. И в-третьих, высокие значения —stylize при фотореализме скорее навредят, чем помогут — лучше держать их в районе 50–100.

Впрочем, ложка дёгтя тут тоже имеется. Абсолютного фотореализма, особенно для людей, добиться сложно. Приглядись к деталям — и рано или поздно всплывут артефакты: лишний палец, размытая серёжка, странная текстура кожи вблизи. Для соцсетей и презентаций это часто некритично, а вот для печати крупным форматом каждый такой нюанс бросается в глаза. Да и этические вопросы никто не отменял: фотореалистичные генерации легко спутать с настоящими фото, и этим, к сожалению, уже пользуются для махинаций.

Скрупулёзная работа над деталями: inpainting и zoom

После получения увеличенного изображения работа не заканчивается. Midjourney предлагает несколько инструментов для доводки. Один из них — Zoom Out. Эта функция расширяет «холст» за пределы исходной картинки, дорисовывая окружение. По сути, нейросеть додумывает, что могло бы находиться за рамками кадра. Выглядит впечатляюще, хотя и не всегда предсказуемо — иногда фон получается органичным, а иногда откровенно фантазийным.

Pan — ещё одна функция из того же арсенала. Она сдвигает «камеру» влево, вправо, вверх или вниз, дорисовывая новую часть сцены. Это удобно для создания широких панорам из одного начального изображения. А уже упомянутый Vary (Region) позволяет локально перерисовать любую часть картинки. Скажем, лицо устраивает, поза идеальна, но фон хочется сменить с города на лес — пожалуйста. Выделяешь область фона, прописываешь новое описание, и нейросеть перерисовывает только его. Не сказать, что результат всегда безупречный, но в семи из десяти случаев — вполне достойный.

Подводные камни и типичные ошибки

Первая и, пожалуй, самая распространённая — слишком размытый промт. «Крутая картинка» или «что-нибудь красивое» — это не промт, а пожелание. Нейросети нужна конкретика. Вторая ошибка — перегруженный промт, в котором двадцать стилей, десять персонажей и три эпохи одновременно. Midjourney честно попытается вместить всё, но итог будет напоминать сюрреалистичную кашу. И наконец, многие забывают экспериментировать с параметрами. Одна и та же текстовая часть с разными значениями —stylize, —chaos и —ar может выдать совершенно разный результат.

Отдельная тема — авторское право. На самом деле, юридический статус изображений, сгенерированных нейросетью, до сих пор остаётся довольно туманным. В США, например, Бюро авторского права неоднократно заявляло, что работы, созданные «без существенного человеческого авторства», не подлежат защите. А вот в ряде других стран вопрос пока не решён. Для коммерческого использования это серьёзный нюанс, и игнорировать его не стоит.

Советы для тех, кто хочет расти

Изучение чужих промтов — мощнейший ускоритель прогресса. На сайте Midjourney в разделе «Explore» собрана гигантская галерея пользовательских работ, и к каждой (если автор не скрыл) прилагается полный промт. Это настоящий кладезь идей и приёмов. Натыкаешься на изображение, которое приковывает взгляд, — смотришь промт, анализируешь структуру, запоминаешь удачные формулировки. Со временем вырабатывается интуиция: начинаешь чувствовать, какие слова «работают», а какие нейросеть игнорирует.

К тому же стоит завести себе «библиотеку промтов» — простой текстовый файл или таблицу, куда будут сохраняться удачные формулировки. Буквально десятилетие назад подобные коллекции собирали фотографы (только вместо промтов — настройки камеры и схемы света), а сейчас тот же принцип работает для нейросетевого арта. Да и само комьюнити Midjourney в Discord — щедрое на советы место, где обитатели делятся находками с завидной регулярностью.

Midjourney для коммерческих задач

Использовать генерации в коммерческих целях — можно, но только на платных тарифах. Это прописано в условиях сервиса. Стандартный план за 30 долларов в месяц включает около 15 часов «быстрой» генерации на GPU, а Pro-план за 60 долларов — 30 часов плюс режим «стелс», скрывающий ваши промты от публичной галереи. Для агентств и студий, работающих с клиентскими проектами, режим стелс — вещь критически важная. Ведь конкуренты не дремлют, и удачный стилевой приём могут позаимствовать за секунды.

Не стоит забывать и о пост-обработке. Midjourney генерирует изображения с максимальным разрешением около 1024×1024 пикселей (в базовом режиме), и для печати или крупных баннеров этого маловато. Выручают внешние инструменты апскейла — Topaz Gigapixel AI или аналоги, способные увеличить картинку в четыре-восемь раз без критичной потери качества. А для тонкой ретуши — Photoshop, который по-прежнему стоит на ногах как основной инструмент финальной доводки.

Midjourney — это не замена художнику, а новый изысканный инструмент в его руках. Тот, кто понимает композицию, цвет и свет, извлечёт из нейросети в десять раз больше, чем тот, кто просто набирает слова наугад.

Каждый арт, сгенерированный с умом и вниманием к деталям, — маленькая победа. И чем больше времени вы вкладываете в изучение промтов, параметров и стилевых приёмов, тем стабильнее результат. Нейросеть — это кисть, а художник — вы. Ну а если первые попытки далеки от совершенства, не стоит расстраиваться. Даже самые колоритные работы, которыми пестрят галереи Midjourney, рождались не с первого промта. Удачи в творческих экспериментах — пусть каждая генерация приближает к тому самому изображению, которое давно жило в воображении.