Midjourney: пример запросов для генерации качественных артов

Ещё пару лет назад создание цифровой иллюстрации требовало либо многолетнего опыта работы в графических редакторах, либо приличного бюджета на оплату художника-фрилансера. А сейчас нейросеть Midjourney генерирует впечатляющие арты за считаные секунды — нужно лишь грамотно сформулировать текстовый запрос. Казалось бы, что тут сложного: набрал пару слов, нажал «Enter» и получил шедевр. Но на практике львиная доля новичков натыкается на одну и ту же стену — результат выходит размытым, невнятным или вовсе далёким от задуманного. Дело в том, что между случайным промтом и скрупулёзно выстроенным запросом лежит пропасть. А чтобы эту пропасть преодолеть, стоит разобраться в анатомии правильного промта от начала и до конца.

Что такое промт и почему от него зависит всё?

Промт (от англ. prompt) — это текстовая инструкция, которую пользователь отправляет нейросети. По сути, короткое техническое задание для алгоритма. И вот тут кроется главный нюанс: Midjourney не умеет читать мысли. Она интерпретирует каждое слово буквально, опираясь на миллиарды изображений, на которых обучалась. Поэтому расплывчатая фраза вроде «красивый пейзаж» даст непредсказуемый результат — алгоритм сам решит, какой именно пейзаж считать красивым. А вот детализированный запрос, усиленный стилевыми маркерами и техническими параметрами, приковывает внимание нейросети к конкретным деталям. Ведь именно конкретика творит чудеса в мире генеративного искусства.

Структура грамотного запроса

Скелет промта. Без чёткого понимания его структуры все попытки получить качественный арт сводятся к лотерее. Первым элементом всегда идёт основной объект — то, что нейросеть должна поставить в центр композиции. Это может быть персонаж, здание, животное, абстрактная фигура. Далее следует окружение и контекст: где находится объект, что его окружает, какое время суток на изображении. К тому же нельзя не упомянуть стилистику — именно она задаёт общий антураж. И, наконец, замыкают конструкцию технические параметры, прописываемые через двойное тире в конце строки: соотношение сторон, версия модели, степень стилизации. Без хотя бы трёх из этих четырёх «столпов» результат окажется довольно посредственным.

Стоит отметить один щепетильный момент: порядок слов в промте тоже имеет значение. Midjourney уделяет больше «внимания» тому, что стоит ближе к началу запроса. Поэтому самый важный элемент композиции лучше вынести вперёд, а второстепенные детали — оставить на потом. Многие считают, что длина промта напрямую влияет на качество, но на самом деле чрезмерно раздутый текст (свыше 60–70 слов) скорее путает алгоритм, чем помогает ему.

Как описать стиль и настроение?

Вот где начинается самое интересное. Стилистические указания — настоящий спасательный круг для тех, кто хочет получить не просто картинку, а арт с характером. Один из самых популярных приёмов — ссылка на конкретного художника или направление в искусстве. Промт «a lone knight standing on a cliff, style of Caspar David Friedrich, oil painting, dramatic lighting» заставит нейросеть тяготеть к романтическому пейзажу с фигурой на фоне бескрайнего неба, выполненному в духе немецкого романтизма XIX века. А запрос «cyberpunk street market, neon lights, rain reflections, in the style of Syd Mead, cinematic composition» переносит зрителя в футуристический колоритный мир, залитый неоном и мокрым асфальтом.

Отдельно стоит упомянуть настроение, или mood. Добавление слов вроде «melancholic», «eerie», «serene», «whimsical» способно кардинально изменить палитру и атмосферу изображения. Без указания настроения алгоритм генерирует нечто нейтральное — не плохое, но и не цепляющее. А ведь именно эмоциональный заряд отличает добротный арт от пустой картинки. Впрочем, не стоит перебарщивать и нанизывать друг на друга пять противоречивых эмоций: «joyful dark terrifying peaceful» — это путь в никуда.

Примеры промтов для разных жанров

Теория без практики мало чего стоит. Поэтому разберём конкретные примеры, которые действительно работают и дают внушительный результат. Начнём с портретной иллюстрации. Промт «a weathered old fisherman with deep wrinkles, holding a lantern, close-up portrait, golden hour lighting, shot on Hasselblad, film grain, shallow depth of field —ar 2:3 —v 6.1» выдаёт фотореалистичное изображение пожилого рыбака с текстурной кожей, подсвеченного тёплым закатным светом. Обратите внимание: упоминание конкретной камеры (Hasselblad) и плёночного зерна (film grain) подталкивает нейросеть к имитации аналоговой фотографии. Это довольно тонкий трюк, который многие обыватели упускают.

Следующий важный жанр — фэнтези-арт. Здесь простор для воображения безграничен. Запрос «an ancient dragon sleeping on a mountain of gold coins inside a vast cavern, volumetric light rays piercing through cracks in the ceiling, epic fantasy illustration, detailed scales, style of Alan Lee —ar 16:9 —v 6.1 —stylize 750» создаёт грандиозную сцену в духе иллюстраций к Толкину. Параметр —stylize 750 (при стандартном значении 100) усиливает художественную интерпретацию, и нейросеть позволяет себе больше творческой свободы. Но есть ложка дёгтя: слишком высокие значения стилизации иногда уводят результат далеко от исходного описания.

Ну, а для любителей минимализма и современного дизайна подойдёт нечто совершенно иное. Промт «a single geometric chair in an empty white room, one beam of sunlight, minimalist product photography, clean lines, soft shadows, neutral tones —ar 1:1 —v 6.1 —stylize 50» генерирует изысканный предметный снимок. Низкое значение стилизации (50) в этом случае — осознанный выбор: нейросеть строго следует инструкции и не привносит лишних декоративных элементов. Для коммерческой графики и презентаций такой подход — настоящий кладезь возможностей.

Стоит ли использовать негативные промты?

Безусловно. И вот почему. Midjourney, как и любая генеративная модель, иногда «подбрасывает» нежелательные элементы: лишние пальцы на руках, размытые лица в толпе, текстовые артефакты на вывесках. Негативный промт — это инструмент, позволяющий сказать алгоритму, чего на картинке быть не должно. Записывается он через параметр —no. К примеру, дописав —no text, watermark, blurry, extra fingers, можно существенно снизить вероятность появления подобных огрехов. Конечно, стопроцентной гарантии нет — всё-таки нейросеть работает с вероятностями, а не с чертежами. Однако на практике негативные промты довольно ощутимо повышают процент удачных генераций с первой попытки.

Технические параметры и их влияние на результат

Многие новички игнорируют технические «хвосты» в конце промта, а зря. Параметр —ar задаёт соотношение сторон изображения: 16:9 для широкоформатных пейзажей и обоев рабочего стола, 2:3 для вертикальных портретов, 1:1 для аватарок и иконок. Казалось бы, мелочь. Но именно от пропорций холста зависит, как нейросеть распределит композицию. Вертикальный формат подталкивает алгоритм к центрированному портрету, горизонтальный — к панорамной сцене с глубиной.

Параметр —v отвечает за версию модели. На момент написания статьи актуальная версия — 6.1, хотя периодически появляются экспериментальные обновления. Разница между пятой и шестой версиями бросается в глаза: шестая модель лучше понимает сложные пространственные отношения, тоньше работает с текстурами и реалистичнее передаёт анатомию человека. Кстати, существует ещё параметр —quality (или —q), влияющий на время рендеринга и детализацию. Значение —q 2 удваивает вычислительные затраты, но для финальных работ это серьёзное вложение времени, которое себя оправдывает.

Нельзя не упомянуть и параметр —chaos. Он контролирует степень вариативности между четырьмя вариантами в сетке результатов. При нулевом значении все четыре картинки будут похожи друг на друга, а при —chaos 100 нейросеть выдаст максимально разнообразные интерпретации. Для мозгового штурма и поиска неожиданных идей высокий хаос — спасательный круг. А вот для коммерческих задач, где результат нужен предсказуемый, лучше держать его в диапазоне от 0 до 20.

Как добиться фотореализма?

Задача не из лёгких. Ведь нейросеть по умолчанию тяготеет к «красивости», приглаживая текстуры и перенасыщая цвета. Чтобы преодолеть этот эффект, в промт стоит добавлять маркеры реалистичной фотографии: указание на тип объектива (85mm lens, wide-angle, macro), условия съёмки (overcast sky, studio lighting, golden hour), камеру (Canon EOS R5, Sony A7III) и даже тип плёнки (Kodak Portra 400, Fujifilm Velvia). Такой промт, как «a street vendor selling spices at a busy Moroccan souk, natural daylight, Canon EOS R5, 35mm lens, shallow depth of field, documentary photography style —ar 3:2 —v 6.1», даёт изображение, которое довольно сложно с первого взгляда отличить от настоящей фотографии. Особый интерес вызывает то, как нейросеть «считывает» маркеры документальной съёмки: появляются лёгкая зернистость, естественный бокэ и случайные детали на периферии кадра, создающие ощущение подлинности.

Частые ошибки, которые портят результат

Буквально в каждом втором чате, посвящённом Midjourney, всплывают одни и те же жалобы: «нейросеть меня не понимает», «результат не похож на то, что я хотел». На самом деле проблема почти всегда кроется в промте, а не в алгоритме. Одна из самых распространённых ошибок — избыточная абстракция. Запрос «something beautiful and amazing» не несёт для нейросети никакой конкретной информации. Что именно красиво? Цветок? Закат? Лицо ребёнка? Без ответа на этот вопрос алгоритм генерирует нечто усреднённое и пресное.

Ещё одна ловушка — противоречивые указания в одном промте. Если написать «a dark gloomy forest, bright sunny day, cheerful atmosphere», нейросеть попытается совместить несовместимое и выдаст визуальную кашу. Стоит задуматься: какой именно эмоции вы хотите от зрителя? И уже от этого ответа выстраивать всё описание. К тому же не стоит забывать о грамматике английского языка в промте. Да, Midjourney толерантна к ошибкам, но правильно построенные фразы с прилагательными перед существительными («ancient crumbling stone bridge», а не «bridge stone ancient crumbling») дают заметно более точный результат.

Продвинутые техники: смешивание изображений и весовые коэффициенты

Помимо текстовых промтов Midjourney умеет работать с изображениями-референсами. Достаточно вставить ссылку на картинку перед текстовым описанием, и нейросеть учтёт её стилистику, цветовую гамму или композицию при генерации. Это мощный инструмент для тех, кто точно знает, «как должно выглядеть», но затрудняется описать это словами. А если совместить два референса с текстовым промтом, можно получить совершенно неожиданный гибрид.

Весовые коэффициенты (multi-prompts) — ещё одна изюминка для продвинутых пользователей. Двойное двоеточие позволяет задать приоритет отдельным частям промта. Например, запрос «vibrant tropical jungle::3 ancient temple ruins::2 morning mist::1 —ar 16:9» говорит нейросети: «джунгли — главный элемент, руины — второстепенный, туман — лёгкий штрих». Без весов все три элемента получили бы равный приоритет, и композиция вышла бы перегруженной. Тем более что в сложных многосоставных сценах контроль над «весом» каждого компонента — это разница между хаосом и гармонией.

Как экспериментировать и не терять время?

Генерация изображений в Midjourney бьёт по бюджету — не в денежном смысле (хотя подписка тоже не сильно ударит по кошельку), а во временном. Каждый запрос расходует минуты GPU-времени, и на базовом тарифе их количество ограничено. Поэтому скрупулёзный подход к формулировке промта экономит ресурсы. Перед тем как запускать финальную генерацию, имеет смысл прогнать несколько быстрых тестов на низком качестве (—q 0.5) и с высоким хаосом (—chaos 50). Это даст общее представление о направлении, в котором движется нейросеть. А уже потом, определившись с удачной композицией, можно выкрутить качество на максимум и сделать апскейл (увеличение разрешения) понравившегося варианта.

К слову, функция —seed позволяет зафиксировать «зерно» генерации — числовое значение, от которого отталкивается алгоритм. Если результат почти устраивает, но хочется внести мелкие правки, можно сохранить seed и слегка изменить текст промта. Нейросеть сгенерирует похожее изображение с учётом новых корректировок. Это же правило касается и —sref — стилевого референса, появившегося в шестой версии. Он позволяет «запомнить» визуальный стиль одной генерации и перенести его на другие промты. Для серии иллюстраций в едином стиле (например, для детской книги или настольной игры) инструмент бесценный.

Промты для коммерческих задач

Не секрет, что Midjourney всё чаще используют не только энтузиасты, но и дизайнеры, маркетологи, владельцы малого бизнеса. Для обложки блога или поста в социальных сетях подойдёт промт вроде «flat lay composition of coffee cup, notebook, and autumn leaves on a wooden table, warm tones, soft overhead lighting, lifestyle photography —ar 4:5 —v 6.1 —stylize 200». Результат — атмосферная добротная фотография, готовая к публикации без дополнительной обработки. Для концепт-артов интерьера запрос может выглядеть иначе: «a cozy Scandinavian living room, floor-to-ceiling windows overlooking a snowy forest, sheepskin rugs, warm wood accents, natural light, architectural digest photography —ar 16:9». Нейросеть в таком случае тяготеет к журнальной эстетике и выдаёт изображение, которое хоть сейчас на обложку.

Впрочем, есть и подводные камни. Коммерческое использование генераций Midjourney регулируется лицензионным соглашением, и не стоит забывать о нём. На платных тарифах пользователь получает право на коммерческое применение, но на бесплатном (если он ещё доступен) — нет. Да и вопрос авторского права на AI-арт до сих пор остаётся неоднозначным в правовом поле многих стран. Тем более что судебные прецеденты по этой теме появляются буквально каждый месяц.

Что насчёт русского языка в промтах?

Можно ли писать промты на русском? Технически — да, Midjourney обработает запрос и на кириллице. Но результат окажется заметно хуже. Это связано с тем, что модель обучалась преимущественно на англоязычных описаниях изображений, и семантическая точность на английском в разы выше. Русское слово «уютный» нейросеть может интерпретировать совсем иначе, чем англоязычный эквивалент «cozy», к которому привязаны миллионы визуальных ассоциаций. Поэтому даже при минимальном знании английского стоит формулировать промты именно на нём. А если язык совсем не даётся, на помощь придёт любой онлайн-переводчик — главное, проверить, что перевод не исказил смысл.

Где искать вдохновение для промтов?

Сообщество Midjourney — настоящий кладезь идей. На официальном сервере Discord ежедневно публикуются тысячи генераций вместе с промтами, которые к ним привели. Достаточно найти изображение, которое приковывает внимание, и изучить его промт — а затем адаптировать под свои нужды. Кроме того, существуют специализированные сайты-библиотеки промтов: PromptHero, Lexica, Arthub.ai и другие. Каждый из них собирает удачные запросы с превью результатов. Ну и, конечно же, не стоит недооценивать силу личного эксперимента. Иногда самые впечатляющие арты рождаются из случайного сочетания слов, которое никому бы не пришло в голову заложить в промт намеренно.

Путь от первого неуклюжего запроса до стабильно качественных генераций занимает не так много времени, как может показаться. Пара десятков экспериментов, понимание базовой структуры промта и внимание к деталям — вот, пожалуй, и весь рецепт. А Midjourney, при всей своей алгоритмической природе, довольно щедро вознаграждает тех, кто подходит к запросам с фантазией и скрупулёзностью. Удачи в генерации — пусть каждый новый арт радует глаз и вдохновляет на следующий.