Эффективные запросы для Midjourney: формулы и секреты идеальной генерации

Ещё пару лет назад нейросети для генерации картинок казались чем-то из области фантастики — баловством для узкого круга энтузиастов, которые возились с кодом и ждали результат по несколько часов. А сейчас Midjourney выдаёт фотореалистичное изображение за тридцать-сорок секунд, и пользуются этим все — от дизайнеров интерьеров до школьников, готовящих презентации. Но вот парадокс: инструмент доступен каждому, а действительно впечатляющие результаты получают единицы. Дело в том, что львиная доля успеха зависит не от самой нейросети, а от того, как именно сформулирован запрос. Поэтому перед тем, как тратить драгоценные генерации впустую, стоит разобраться в анатомии грамотного промта.

Что такое промт и почему он решает всё?

Промт (от английского prompt — подсказка) – это текстовая инструкция, которую пользователь отправляет нейросети. Казалось бы, ничего сложного: напиши «красивый закат над морем» и жди шедевр. На практике же такой запрос выдаст нечто усреднённое, безликое и довольно скучное. Ведь нейросеть не умеет читать мысли — она опирается исключительно на слова, которые ей скормили. И чем точнее подобраны эти слова, тем ближе результат к задуманному образу. К слову, опытные пользователи Midjourney тратят на формулировку промта больше времени, чем на саму генерацию. Это не преувеличение — скрупулёзная работа над текстом запроса творит чудеса.

Базовая формула запроса

Структура грамотного промта. С неё начинается путь любого новичка. Первым элементом всегда идёт основной объект — то, что должно солировать на изображении. Далее следует описание среды или фона, в которую этот объект помещён. Третий компонент — стилистика, то есть указание на художественное направление, эпоху или конкретного автора. Ну и, наконец, технические параметры: соотношение сторон, степень стилизации, версия модели. Если записать это в виде условной формулы, получится примерно так: объект + окружение + стиль + параметры. Однако голая формула без нюансов — как рецепт борща без указания количества ингредиентов. Вроде бы всё на месте, а вкус непредсказуемый.

Нужно отметить, что порядок слов внутри промта имеет значение. Midjourney придаёт больший вес тому, что стоит ближе к началу строки. Поэтому самое важное — объект или действие — стоит ставить первым. А вот модификаторы стиля и настроения лучше отодвинуть во вторую половину запроса. Многие считают, что длинный промт всегда лучше короткого, но на самом деле всё зависит от задачи. Иногда лаконичный запрос из пяти-шести слов даёт более выразительный результат, чем громоздкая конструкция на три строки.

Стоит ли описывать стиль отдельно?

Безусловно. Стиль — это та самая изюминка, которая превращает банальную картинку в произведение с характером. И тут открывается настоящий кладезь возможностей. Один из самых популярных приёмов — ссылка на конкретного художника или фотографа. Запрос «portrait of a woman, style of Gustav Klimt» выдаст совершенно иной результат, нежели «portrait of a woman, style of Annie Leibovitz». В первом случае появятся золотые орнаменты и плоскостная декоративность, во втором — драматичное студийное освещение и глубокая резкость.

Отдельно стоит упомянуть стилистические маркеры, связанные с эпохой. Слова вроде «art deco», «brutalism», «Victorian era» мгновенно задают визуальную рамку. А если к ним добавить технику исполнения — «watercolor», «oil painting», «digital art», «pencil sketch» — нейросеть начинает работать куда точнее. К тому же комбинирование несовместимых на первый взгляд стилей порой рождает грандиозные результаты. Например, «cyberpunk cathedral in the style of Monet» — неоднозначное сочетание, но визуально завораживающее.

Магия параметров

Мало кто из новичков добирается до параметров. А зря. Ведь именно они позволяют тонко настраивать генерацию, не меняя содержание промта. Начать нужно с —ar (aspect ratio) — соотношения сторон. По умолчанию Midjourney выдаёт квадратное изображение 1:1, но для пейзажей куда лучше подходит 16:9, а для портретов — 2:3 или 9:16. Казалось бы, мелочь, однако неправильная пропорция способна испортить даже самую удачную композицию.

Следующий важный критерий — —stylize (или сокращённо —s). Этот параметр отвечает за то, насколько сильно нейросеть «приукрашивает» результат собственной эстетикой. Значение по умолчанию — 100. При минимальном (около 0) генерация точнее следует тексту промта, но выглядит скромнее. При максимальном (1000) — картинка получается эффектной, вычурной, но может довольно сильно отклониться от задуманного. Для коммерческих проектов опытные пользователи обычно ставят значение в диапазоне от 250 до 750 — золотая середина между контролем и художественной свободой.

Ну, а параметр —chaos управляет разнообразием в сетке из четырёх вариантов. Низкий показатель (от 0 до 20) — все четыре превью похожи друг на друга. Высокий (до 100) — разброс колоссальный, каждый вариант как отдельная интерпретация. Это удобно на этапе поиска идеи. Ведь иногда самое неожиданное решение всплывает именно в хаотичной генерации.

Какими бывают типичные ошибки в промтах?

Подводные камни. Их тут хватает. Первая и самая распространённая ошибка — избыточная детализация. Когда в один промт запихивают описание объекта, цвет его глаз, фактуру ткани, время суток, погоду, марку автомобиля на заднем плане и ещё полдюжины деталей — нейросеть начинает «путаться». Дело в том, что модель пытается угодить каждому слову, и элементы начинают конфликтовать между собой. Результат — каша. Гораздо эффективнее работать итерационно: сначала задать основу, потом уточнять через —seed и повторные генерации с корректировками.

Вторая ложка дёгтя — использование абстрактных понятий без визуальной привязки. Слова «красота», «счастье», «свобода» для нейросети — пустой звук. Она не понимает эмоций, она понимает визуальные образы. Вместо «freedom» стоит написать «woman with outstretched arms standing on a cliff, wind blowing through her hair, vast ocean below». Конкретика вместо абстракции — вот постулат, который не стоит забывать.

И третий нюанс — отрицания. Midjourney довольно плохо справляется с конструкциями вроде «no people» или «without text». Модель всё равно «видит» существительное и пытается его отрисовать. Спасательный круг тут — параметр —no. Запись «—no text, people, watermark» работает значительно надёжнее, чем попытка объяснить нейросети словами, чего на картинке быть не должно.

Продвинутые техники: мультипромт и весовые коэффициенты

Разделитель :: — штука мощная. С его помощью промт делится на смысловые блоки, и каждому блоку можно присвоить свой «вес». Например, запрос «hot dog» с высокой вероятностью выдаст сосиску в булке. Но если написать «hot:: dog», нейросеть разделит понятия — получится собака в жаркую погоду. А запись «hot::2 dog::1» ещё сильнее сместит акцент на тепло и зной. Эта техника особенно полезна, когда нужно совместить два разнородных объекта и контролировать, какой из них будет доминировать на изображении.

К тому же мультипромт позволяет назначать отрицательные веса. Конструкция «vibrant forest landscape:: dark mood::-0.5» ослабит мрачность и сохранит яркость. Впрочем, злоупотреблять отрицательными весами не стоит — результаты бывают непредсказуемыми. Добротный мультипромт редко содержит больше трёх-четырёх блоков. Больше — и нейросеть снова начинает «тонуть» в противоречиях.

Как добиться фотореализма?

Фотореалистичная генерация. Тема, которая приковывает внимание львиной доли пользователей. И здесь тоже есть свои формулы. Во-первых, стоит указывать тип камеры и объектива: «shot on Canon EOS R5, 85mm f/1.4». Во-вторых, описание освещения играет колоссальную роль — «golden hour lighting», «soft diffused light», «dramatic rim light». Ну и, конечно же, добавление слов «photorealistic», «hyperrealistic», «RAW photo» задаёт нужный вектор.

Но есть тонкость. Многие грезят о совершенном фотореализме, забывая, что Midjourney — прежде всего художественный инструмент. Версия 6.1 справляется с реалистичными портретами заметно лучше предшественниц, однако мелкие огрехи вроде неестественных пальцев или размытых надписей всё ещё всплывают. Не стоит ожидать, что нейросеть заменит профессиональную фотосессию. Скорее, она станет мощным инструментом визуализации концепта — особенно на ранних этапах проекта, когда нужно быстро показать клиенту настроение будущего снимка.

Промт-инжиниринг как отдельный навык

Занятное наблюдение: буквально за два года промт-инжиниринг превратился из забавного хобби в полноценную профессию. На биржах фриланса уже встречаются заказы вроде «нужен специалист по Midjourney для создания визуального стиля бренда». И кошелёк такого специалиста становится ощутимо тяжелее — ставки за генерацию пакета из двадцати-тридцати изображений стартуют от пятидесяти-ста долларов. Впрочем, дело не только в деньгах. Сам процесс затягивает — экспериментировать с формулировками, находить идеальное сочетание слов, наблюдать, как двумя дополнительными словами меняется вся атмосфера картинки.

С чего начинается мастерство? С наблюдения. Опытные пользователи собирают библиотеки удачных промтов, анализируют чужие работы на таких платформах, как Promptbase и Midlibrary, ведут заметки с пометками «сработало» и «мимо». Да и сам процесс итерации — когда один промт прогоняют через десять-пятнадцать вариаций, меняя по одному слову за раз, — учит чувствовать язык нейросети. Это кропотливая, но увлекательная работа, которая со временем формирует интуитивное понимание того, как Midjourney «думает».

Секреты, о которых редко говорят

Референсные изображения. Вот что действительно меняет правила игры. Если вставить ссылку на картинку в начало промта, нейросеть использует её как визуальную основу. Это мощнейший инструмент, когда нужно сохранить определённую цветовую палитру, композицию или настроение. Параметр —iw (image weight) позволяет регулировать, насколько сильно референс повлияет на результат: значение 0.5 — лёгкий намёк, 2.0 — почти точное воспроизведение стилистики исходника.

Ещё один довольно малоизвестный приём — permutations (пермутации). Фигурные скобки внутри промта позволяют генерировать несколько вариаций одним запросом. Например, «a castle at {sunrise, sunset, midnight}» создаст три отдельные генерации — замок на рассвете, на закате и в полночь. Это колоссальная экономия времени. Тем более что ручная замена одного слова и повторная отправка промта — занятие, мягко говоря, утомительное.

Отдельно стоит упомянуть работу с —seed. Каждая генерация имеет свой числовой идентификатор — seed. Если результат понравился, но нужно внести небольшое изменение (скажем, поменять время суток), стоит сохранить seed и подставить его в новый запрос. Так основа композиции останется прежней, а изменится только то, что было скорректировано в тексте. Приём простой, но почему-то обыватели о нём забывают.

Чем версия 6 отличается от предыдущих?

Разница внушительная. Версия 5 тяготела к «красивости» — изображения получались яркими, сочными, но порой чрезмерно идеализированными. Версия 6 сделала заметный шаг в сторону точного следования промту. Теперь нейросеть гораздо лучше понимает пространственные указания («object on the left», «background blurred»), справляется с текстом на изображениях (хотя и не идеально) и точнее передаёт сложные сцены с несколькими персонажами. А если ещё вспомнить про улучшенную работу с руками и пальцами — прогресс бросается в глаза.

Однако есть и обратная сторона медали. Шестая версия более «капризна» к формулировкам. Промты, которые отлично работали на пятой версии, могут выдать совершенно неожиданный результат. Это связано с тем, что изменился сам механизм интерпретации текста — модель стала внимательнее к деталям, но и чувствительнее к порядку слов. Стоит задуматься об этом при переносе старых промтов на новую версию.

Формула идеального промта: собираем воедино

Вся суть в том, что универсального рецепта не существует. Но рабочий шаблон, от которого можно отталкиваться, выглядит примерно так: «[Тип изображения] of [Объект] in [Среда/Локация], [Стиль/Художник], [Освещение], [Настроение/Атмосфера], [Технические детали камеры] —ar [значение] —s [значение]». На практике это может превратиться в нечто вроде: «editorial photograph of an elderly fisherman mending nets on a wooden pier, Mediterranean village at dawn, warm golden light, nostalgic mood, shot on Leica M10, 35mm lens —ar 3:2 —s 400». Результат — колоритный снимок с характером, а не безликая стоковая картинка.

Не стоит гнаться за длиной промта. Важна не количественная, а смысловая насыщенность каждого слова. Одно точное прилагательное заменяет три размытых.

И всё-таки главный секрет — практика. Никакие формулы и чек-листы не заменят собственного опыта. Первые пятьдесят генераций будут экспериментальными, следующие сто — осознанными, а после двухсот-трёхсот попыток рука сама начнёт выстраивать промт с нужной точностью. Midjourney — инструмент, который вознаграждает терпеливых и любопытных. А каждый удачный промт — это маленькая победа, которая мотивирует двигаться дальше. Удачи в генерациях — пусть нейросеть воплощает именно то, что задумано, а не то, что ей вздумается.