Как использовать команду imagine в Midjourney для точной генерации картинок

Нейросети для создания изображений буквально за пару лет превратились из забавной игрушки для энтузиастов в полноценный рабочий инструмент дизайнеров, маркетологов и просто творческих людей. Львиная доля новичков, впервые открывших для себя Midjourney, натыкается на одну и ту же проблему: картинки получаются красивыми, но совершенно не теми, что рисовало воображение. Вроде бы и запрос написан грамотно, и тема обозначена верно, а результат — что-то абстрактное, далёкое от замысла. Дело в том, что между «написать промт» и «написать правильный промт» пролегает целая пропасть, преодолеть которую без понимания механики команды /imagine довольно сложно. А начать стоит с самых основ — с разбора того, как эта команда устроена и какие нюансы влияют на итоговую картинку.

Что скрывается за командой /imagine

Строка ввода. Вот с чего всё начинается. После того как пользователь набирает /imagine в чате Discord-сервера Midjourney, перед ним появляется поле prompt — и именно сюда вписывается текстовое описание будущего изображения. Казалось бы, ничего сложного: опиши словами то, что хочешь увидеть, и нейросеть сделает остальное. Но на практике всё устроено тоньше. Midjourney воспринимает каждое слово в промте не просто как элемент описания, а как вектор в многомерном пространстве смыслов, и от порядка этих слов, от их взаимного расположения зависит, какой именно «смысловой коктейль» получит генератор. Ведь нейросеть не читает текст так, как это делает человек, — она разбивает фразу на токены и взвешивает каждый из них.

Нужно отметить, что сама по себе команда /imagine — лишь точка входа. Всю настоящую магию творит промт, то есть текстовое описание, дополненное параметрами. Многие путают эти понятия: промт — это не команда, а содержимое поля после неё. И вот здесь-то начинаются подводные камни, потому что от структуры промта зависит буквально всё — от композиции кадра до цветовой палитры.

Структура грамотного промта

Задача не из лёгких. Промт для Midjourney тяготеет к определённой архитектуре, хотя жёстких правил разработчики официально не навязывают. На практике же опытные пользователи давно вывели негласную формулу, которая работает стабильнее всего. Начинается всё с указания основного объекта — того, что должно солировать в кадре. Далее следует описание окружения и контекста: где находится объект, в какой обстановке, при каком освещении. Следующий важный критерий — стилистика, то есть отсылка к конкретному художественному направлению, технике или автору. Ну и, наконец, технические параметры, которые дописываются в конце промта через двойное тире.

Допустим, нужна картинка рыцаря в тёмном лесу. Обыватель напишет что-то вроде «knight in dark forest» и получит вполне приличный, но довольно предсказуемый результат. А вот опытный пользователь подойдёт к делу скрупулезнее: укажет материал доспехов, характер освещения (скажем, лунный свет, пробивающийся сквозь кроны), добавит стилистическую привязку к работам Грега Рутковски или Фрэнка Фразетты, и завершит строку параметрами соотношения сторон и степени стилизации. Разница между этими двумя подходами — как между любительским снимком на телефон и постановочной фотографией с продуманным светом.

Порядок слов — имеет ли значение?

Ещё как имеет. Это связано с тем, что Midjourney придаёт больший вес словам, стоящим ближе к началу промта. Первые три-пять слов фактически задают тональность всей генерации, а всё, что идёт дальше, лишь уточняет и корректирует базовый вектор. К слову, многие об этом даже не догадываются и ставят самое важное описание в конец строки, а потом удивляются результатам.

Простой пример: промт «a beautiful sunset over ancient ruins, cyberpunk style» и промт «cyberpunk style, ancient ruins at sunset» дадут заметно отличающиеся картинки. В первом случае нейросеть сделает акцент на закате и руинах, а киберпанк-эстетика окажется лёгким налётом. Во втором — киберпанк станет доминантой, руины могут приобрести неоновую подсветку, а закат отойдёт на второй план. Впрочем, результат всё равно не будет на сто процентов предсказуемым — и в этом одновременно прелесть и головная боль работы с нейросетью.

Параметры после двойного тире

За точность генерации в Midjourney отвечают не только слова, но и технические флаги — так называемые параметры, которые дописываются в самом конце промта. Один из самых востребованных — —ar (aspect ratio), определяющий соотношение сторон изображения. По умолчанию нейросеть выдаёт квадрат 1:1, но для горизонтальных пейзажей стоит задать 16:9, а для вертикальных портретов — 9:16 или 2:3. Казалось бы, мелочь, однако именно соотношение сторон кардинально влияет на композицию. Ведь квадратный кадр и широкоформатный — это два совершенно разных подхода к построению изображения.

Отдельно стоит упомянуть параметр —s (stylize). Он управляет тем, насколько «художественно» нейросеть интерпретирует запрос. Значение по умолчанию — 100, но диапазон простирается от 0 до 1000. При нулевом значении Midjourney старается максимально буквально следовать описанию, жертвуя эстетикой ради точности. А вот при 750 или выше нейросеть берёт на себя львиную долю творческих решений, и результат может оказаться красивым, но весьма далёким от исходного замысла. Для точной генерации золотой серединой считается диапазон от 50 до 250 — тут изображение получается и аккуратным, и достаточно «послушным».

Кстати, нельзя не упомянуть параметр —c (chaos). Он отвечает за разброс вариаций в сетке из четырёх картинок. При значении 0 все четыре изображения окажутся похожими друг на друга, при 100 — каждое из них пойдёт в совершенно непредсказуемом направлении. Для экспериментов высокий хаос — настоящий кладезь идей, но для точной работы лучше держать его в пределах 10–25.

Стоит ли использовать отрицательные промты?

Безусловно. Параметр —no — это, по сути, спасательный круг для тех случаев, когда нейросеть упорно добавляет в картинку нежелательные элементы. Допустим, нужен портрет человека без очков, а Midjourney раз за разом «надевает» их на персонажа. Достаточно дописать —no glasses, и с большой вероятностью проблема решится. Но есть ложка дёгтя: отрицательный промт работает не всегда идеально. Иногда нейросеть воспринимает «запрещённый» объект как дополнительный ориентир и, наоборот, усиливает его присутствие. Это довольно распространённая ситуация, и бороться с ней приходится перефразированием основного описания, а не наращиванием списка исключений.

К тому же отрицательные промты стоит применять точечно. Не нужно перегружать строку десятком исключений — нейросеть от этого не становится послушнее. Двух-трёх чётких ограничений более чем достаточно. А если результат всё равно не устраивает, имеет смысл переосмыслить весь промт целиком, а не латать его заплатками из «—no».

Мультипромты и весовые коэффициенты

Мощный инструмент для точной генерации. Midjourney позволяет разделять промт на смысловые блоки при помощи двойного двоеточия ::, а каждому блоку — назначать числовой вес. Выглядит это так: forest::2 knight::1 moonlight::3. В этом примере лунный свет получит максимальный приоритет, лес — средний, а рыцарь окажется скорее фоновым элементом. Вся суть мультипромтов в том, что они позволяют управлять «вниманием» нейросети с почти хирургической точностью.

Разумеется, у этой техники есть свои подводные камни. Во-первых, слишком агрессивное распределение весов (скажем, 10::1) может привести к артефактам и искажениям. Во-вторых, мультипромты требуют определённого навыка — интуитивно понять, какой именно вес нужен для конкретного элемента, удаётся далеко не сразу. Но после нескольких десятков экспериментов рука набивается, и мультипромты становятся едва ли не основным рабочим инструментом. Да и само ощущение контроля над генерацией после освоения этой техники — совершенно иное.

Как добиться единого стиля в серии изображений

Когда нужна не одна картинка, а целая серия в едином визуальном ключе (для презентации, лендинга или иллюстраций к статье), в дело вступает параметр —seed. Каждая генерация в Midjourney использует случайное начальное значение — сид, — и если зафиксировать его вручную, нейросеть будет отталкиваться от одной и той же «точки старта». Это не гарантирует абсолютной идентичности стиля, но заметно повышает когерентность серии. Узнать сид уже сгенерированной картинки довольно просто: нужно поставить эмодзи-реакцию ✉️ под сообщением бота, и он пришлёт нужное значение в личные сообщения.

Ещё один добротный способ — использование —sref (style reference), появившегося в более новых версиях Midjourney. Этот параметр позволяет «скормить» нейросети ссылку на изображение-эталон, и она постарается воспроизвести его стилистику. Результат впечатляет: серия из пяти-шести картинок выглядит так, будто их нарисовал один и тот же художник. Но не стоит забывать, что степень следования эталону тоже регулируется — через значение —sw (style weight), которое по умолчанию стоит на отметке 100, а варьироваться может от 0 до 1000.

Описательные приёмы для точной передачи идеи

Промт — это не стихотворение. Здесь не нужна образность ради образности. Нейросеть лучше всего реагирует на конкретные, осязаемые описания. Вместо «красивый закат» стоит написать «golden hour sunlight, warm orange and pink gradient sky, long shadows on cobblestone street». Чем больше визуальных маркеров — тем меньше простора для «фантазии» нейросети, а значит, ближе результат к задуманному. К слову, профессионалы часто держат под рукой целую библиотеку проверенных формулировок, которые стабильно дают нужный эффект.

Особый интерес вызывают отсылки к конкретным фотографическим и художественным техникам. Стоит написать «shot on Hasselblad, 85mm lens, shallow depth of field» — и нейросеть сгенерирует изображение с характерным боке и мягкой глубиной резкости. А фраза «in the style of Studio Ghibli watercolor backgrounds» мгновенно задаст узнаваемую анимешную акварельную стилистику. Тем более что Midjourney буквально напичкана знаниями о художниках, фотографах и визуальных стилях — грех этим не воспользоваться.

Впрочем, есть и обратная сторона медали. Слишком длинные промты (больше 60–70 слов) нейросеть начинает «забывать» на полпути, теряя из виду элементы, указанные в середине или конце строки. Поэтому опытные пользователи придерживаются правила «золотых 30–40 слов» — этого достаточно, чтобы передать основную идею со всеми нюансами, но не перегрузить генератор.

Версии модели и их влияние на результат

Немногие задумываются, но выбор версии модели — это тоже часть стратегии точной генерации. На момент написания статьи актуальной версией считается Midjourney v6.1, и она заметно отличается от предшественниц по качеству проработки деталей, пониманию текста и работе с освещением. Буквально пару лет назад, во времена v3 и v4, нейросеть довольно скверно справлялась с руками, лицами и текстом на изображениях — зрелище было порой удручающее. Сейчас же шестая версия генерирует вполне реалистичные портреты с правильной анатомией (хотя огрехи всё ещё всплывают, особенно при сложных позах).

Переключить версию можно параметром —v: например, —v 6.1. А для тех, кто работает с Niji (аниме-ориентированная модель), существует отдельный флаг —niji 6. Нужно отметить, что каждая новая версия по-разному реагирует на одни и те же промты, поэтому после обновления модели старые «рецепты» могут потребовать корректировки. Это нормально. И даже полезно — потому что заставляет пересматривать привычные подходы.

Что делать, когда результат почти идеален

Почти. Вот это коварное «почти» знакомо каждому, кто провёл в Midjourney хотя бы пару часов. Из четырёх картинок в сетке одна оказывается на 90% тем, что нужно, — но какая-нибудь мелочь всё портит. Для таких случаев существуют кнопки U (upscale) и V (variation). Первая увеличивает выбранное изображение до полного разрешения, вторая — генерирует четыре новых варианта на основе понравившейся картинки, сохраняя общий визуальный вектор.

И тут всплывает ещё один изящный инструмент — Vary (Region). Он позволяет выделить конкретную область на изображении и перегенерировать только её, не трогая остальную часть картинки. Допустим, всё идеально, кроме неба — оно получилось слишком блёклым. Выделяешь верхнюю треть изображения, дописываешь «dramatic stormy sky with lightning», и нейросеть перерисовывает только небо, оставив всё остальное нетронутым. Выглядит впечатляюще, а по эффективности этот приём можно сравнить с локальной ретушью в Photoshop — только без необходимости разбираться в слоях и масках.

Частые ошибки и как их избежать

Пожалуй, самая распространённая ошибка — написание промта на русском языке. Midjourney обучена преимущественно на англоязычных описаниях, и хотя русский она «понимает», результаты с ним получаются заметно хуже: меньше деталей, слабее стилизация, чаще артефакты. Не стоит лениться — даже элементарный перевод через любой онлайн-переводчик способен кардинально улучшить генерацию.

Ещё одна типичная проблема — избыточная абстрактность. Промты вроде «beautiful picture of nature» или «cool design» — настоящий подарок для нейросети, потому что она может интерпретировать их как угодно. А нам-то нужна конкретика. Вместо «красивая природа» стоит указать тип ландшафта, время суток, погоду, наличие конкретных объектов. Чем щепетильнее подход к описанию — тем точнее результат. Да и третья ошибка, которую допускают довольно часто, — игнорирование параметра —q (quality). По умолчанию он стоит на единице, и для большинства задач этого хватает, но для финальных изображений высокого качества имеет смысл поэкспериментировать со значением 2 — генерация займёт чуть больше времени, зато детализация порадует.

Работа с изображениями-референсами

Слова — мощный инструмент, но иногда одной картинки достаточно, чтобы объяснить нейросети то, что не получается выразить текстом. Midjourney позволяет вставлять ссылки на изображения прямо в промт — перед текстовым описанием. Нейросеть проанализирует визуальный стиль, цветовую палитру, композицию и постарается воспроизвести «настроение» референса в новом изображении. Это довольно удобно при работе с брендовой айдентикой или когда заказчик присылает мудборд и ждёт точного попадания в стиль.

Однако нужно понимать: Midjourney не копирует референс, а вдохновляется им. Степень влияния регулируется параметром —iw (image weight), который принимает значения от 0 до 3. При значении 0 референс практически игнорируется, при 3 — становится доминирующим фактором. На самом деле оптимальное значение для большинства задач лежит где-то в районе 1–1.5, когда изображение-эталон задаёт общее направление, но не подавляет текстовое описание.

Промт-инженерия как навык

Многие считают, что для работы с Midjourney достаточно фантазии и словарного запаса. На самом деле промт-инженерия — это скорее техническая дисциплина, чем творческая. Она требует понимания того, как нейросеть обрабатывает текст, какие слова запускают какие визуальные паттерны и как параметры взаимодействуют друг с другом. Буквально несколько лет назад такой профессии не существовало, а сейчас грамотные промт-инженеры работают в студиях дизайна и рекламных агентствах, получая вполне внушительные гонорары.

Лучший способ освоить этот навык — вести рабочий журнал. После каждой генерации стоит сохранять промт, параметры, версию модели и результат. Со временем накапливается собственная база знаний — кладезь формулировок и приёмов, проверенных на практике. И тут уж никакой чужой гайд не заменит личного опыта.

Команда /imagine в умелых руках творит чудеса — и это не преувеличение. От банальных запросов из трёх слов до изысканных мультипромтов с весовыми коэффициентами и региональной перегенерацией путь не такой уж длинный. Главное — не бояться экспериментов, фиксировать удачные находки и помнить, что каждая «неудачная» генерация приближает к пониманию того, как думает нейросеть. Удачи в освоении этого колоритного инструмента — результаты не заставят себя ждать.