Midjourney: пример запросов для генерации качественных артов

Ещё пару лет назад создание цифровой иллюстрации требовало либо многолетнего опыта работы в графических редакторах, либо приличного бюджета на оплату художника-фрилансера. А сейчас нейросеть Midjourney генерирует впечатляющие арты за считаные секунды — нужно лишь грамотно сформулировать текстовый запрос. Казалось бы, что тут сложного: набрал пару слов, нажал «Enter» и получил шедевр. Но на практике львиная доля новичков натыкается на одну и ту же стену — результат выходит размытым, невнятным или вовсе далёким от задуманного. Дело в том, что между случайным промтом и скрупулёзно выстроенным запросом лежит пропасть. А чтобы эту пропасть преодолеть, стоит разобраться в анатомии правильного промта от начала и до конца.

Играть в текстовые ролевые игры бесплатно

Что такое промт и почему от него зависит всё?

Промт (от англ. prompt) — это текстовая инструкция, которую пользователь отправляет нейросети. По сути, короткое техническое задание для алгоритма. И вот тут кроется главный нюанс: Midjourney не умеет читать мысли. Она интерпретирует каждое слово буквально, опираясь на миллиарды изображений, на которых обучалась. Поэтому расплывчатая фраза вроде «красивый пейзаж» даст непредсказуемый результат — алгоритм сам решит, какой именно пейзаж считать красивым. А вот детализированный запрос, усиленный стилевыми маркерами и техническими параметрами, приковывает внимание нейросети к конкретным деталям. Ведь именно конкретика творит чудеса в мире генеративного искусства.

Структура грамотного запроса

Скелет промта. Без чёткого понимания его структуры все попытки получить качественный арт сводятся к лотерее. Первым элементом всегда идёт основной объект — то, что нейросеть должна поставить в центр композиции. Это может быть персонаж, здание, животное, абстрактная фигура. Далее следует окружение и контекст: где находится объект, что его окружает, какое время суток на изображении. К тому же нельзя не упомянуть стилистику — именно она задаёт общий антураж. И, наконец, замыкают конструкцию технические параметры, прописываемые через двойное тире в конце строки: соотношение сторон, версия модели, степень стилизации. Без хотя бы трёх из этих четырёх «столпов» результат окажется довольно посредственным.

Стоит отметить один щепетильный момент: порядок слов в промте тоже имеет значение. Midjourney уделяет больше «внимания» тому, что стоит ближе к началу запроса. Поэтому самый важный элемент композиции лучше вынести вперёд, а второстепенные детали — оставить на потом. Многие считают, что длина промта напрямую влияет на качество, но на самом деле чрезмерно раздутый текст (свыше 60–70 слов) скорее путает алгоритм, чем помогает ему.

ИИ-персонаж, с которым хочется говорить 💬

Он реагирует на ваши слова, помнит, о чём вы говорили раньше, и ведёт себя в характере. Можно отыгрывать дружбу, флирт, ссоры и примирения — всё по-настоящему. Отличный способ переключиться после работы, развеяться в дороге или просто провести интересный вечер.

Начать общение 👉 https://clck.ru/3Ta8kQ

Как описать стиль и настроение?

Вот где начинается самое интересное. Стилистические указания — настоящий спасательный круг для тех, кто хочет получить не просто картинку, а арт с характером. Один из самых популярных приёмов — ссылка на конкретного художника или направление в искусстве. Промт «a lone knight standing on a cliff, style of Caspar David Friedrich, oil painting, dramatic lighting» заставит нейросеть тяготеть к романтическому пейзажу с фигурой на фоне бескрайнего неба, выполненному в духе немецкого романтизма XIX века. А запрос «cyberpunk street market, neon lights, rain reflections, in the style of Syd Mead, cinematic composition» переносит зрителя в футуристический колоритный мир, залитый неоном и мокрым асфальтом.

Отдельно стоит упомянуть настроение, или mood. Добавление слов вроде «melancholic», «eerie», «serene», «whimsical» способно кардинально изменить палитру и атмосферу изображения. Без указания настроения алгоритм генерирует нечто нейтральное — не плохое, но и не цепляющее. А ведь именно эмоциональный заряд отличает добротный арт от пустой картинки. Впрочем, не стоит перебарщивать и нанизывать друг на друга пять противоречивых эмоций: «joyful dark terrifying peaceful» — это путь в никуда.

Примеры промтов для разных жанров

Теория без практики мало чего стоит. Поэтому разберём конкретные примеры, которые действительно работают и дают внушительный результат. Начнём с портретной иллюстрации. Промт «a weathered old fisherman with deep wrinkles, holding a lantern, close-up portrait, golden hour lighting, shot on Hasselblad, film grain, shallow depth of field —ar 2:3 —v 6.1» выдаёт фотореалистичное изображение пожилого рыбака с текстурной кожей, подсвеченного тёплым закатным светом. Обратите внимание: упоминание конкретной камеры (Hasselblad) и плёночного зерна (film grain) подталкивает нейросеть к имитации аналоговой фотографии. Это довольно тонкий трюк, который многие обыватели упускают.

Следующий важный жанр — фэнтези-арт. Здесь простор для воображения безграничен. Запрос «an ancient dragon sleeping on a mountain of gold coins inside a vast cavern, volumetric light rays piercing through cracks in the ceiling, epic fantasy illustration, detailed scales, style of Alan Lee —ar 16:9 —v 6.1 —stylize 750» создаёт грандиозную сцену в духе иллюстраций к Толкину. Параметр —stylize 750 (при стандартном значении 100) усиливает художественную интерпретацию, и нейросеть позволяет себе больше творческой свободы. Но есть ложка дёгтя: слишком высокие значения стилизации иногда уводят результат далеко от исходного описания.

Ну, а для любителей минимализма и современного дизайна подойдёт нечто совершенно иное. Промт «a single geometric chair in an empty white room, one beam of sunlight, minimalist product photography, clean lines, soft shadows, neutral tones —ar 1:1 —v 6.1 —stylize 50» генерирует изысканный предметный снимок. Низкое значение стилизации (50) в этом случае — осознанный выбор: нейросеть строго следует инструкции и не привносит лишних декоративных элементов. Для коммерческой графики и презентаций такой подход — настоящий кладезь возможностей.

Стоит ли использовать негативные промты?

Безусловно. И вот почему. Midjourney, как и любая генеративная модель, иногда «подбрасывает» нежелательные элементы: лишние пальцы на руках, размытые лица в толпе, текстовые артефакты на вывесках. Негативный промт — это инструмент, позволяющий сказать алгоритму, чего на картинке быть не должно. Записывается он через параметр —no. К примеру, дописав —no text, watermark, blurry, extra fingers, можно существенно снизить вероятность появления подобных огрехов. Конечно, стопроцентной гарантии нет — всё-таки нейросеть работает с вероятностями, а не с чертежами. Однако на практике негативные промты довольно ощутимо повышают процент удачных генераций с первой попытки.

Технические параметры и их влияние на результат

Многие новички игнорируют технические «хвосты» в конце промта, а зря. Параметр —ar задаёт соотношение сторон изображения: 16:9 для широкоформатных пейзажей и обоев рабочего стола, 2:3 для вертикальных портретов, 1:1 для аватарок и иконок. Казалось бы, мелочь. Но именно от пропорций холста зависит, как нейросеть распределит композицию. Вертикальный формат подталкивает алгоритм к центрированному портрету, горизонтальный — к панорамной сцене с глубиной.

Параметр —v отвечает за версию модели. На момент написания статьи актуальная версия — 6.1, хотя периодически появляются экспериментальные обновления. Разница между пятой и шестой версиями бросается в глаза: шестая модель лучше понимает сложные пространственные отношения, тоньше работает с текстурами и реалистичнее передаёт анатомию человека. Кстати, существует ещё параметр —quality (или —q), влияющий на время рендеринга и детализацию. Значение —q 2 удваивает вычислительные затраты, но для финальных работ это серьёзное вложение времени, которое себя оправдывает.

Нельзя не упомянуть и параметр —chaos. Он контролирует степень вариативности между четырьмя вариантами в сетке результатов. При нулевом значении все четыре картинки будут похожи друг на друга, а при —chaos 100 нейросеть выдаст максимально разнообразные интерпретации. Для мозгового штурма и поиска неожиданных идей высокий хаос — спасательный круг. А вот для коммерческих задач, где результат нужен предсказуемый, лучше держать его в диапазоне от 0 до 20.

Как добиться фотореализма?

Задача не из лёгких. Ведь нейросеть по умолчанию тяготеет к «красивости», приглаживая текстуры и перенасыщая цвета. Чтобы преодолеть этот эффект, в промт стоит добавлять маркеры реалистичной фотографии: указание на тип объектива (85mm lens, wide-angle, macro), условия съёмки (overcast sky, studio lighting, golden hour), камеру (Canon EOS R5, Sony A7III) и даже тип плёнки (Kodak Portra 400, Fujifilm Velvia). Такой промт, как «a street vendor selling spices at a busy Moroccan souk, natural daylight, Canon EOS R5, 35mm lens, shallow depth of field, documentary photography style —ar 3:2 —v 6.1», даёт изображение, которое довольно сложно с первого взгляда отличить от настоящей фотографии. Особый интерес вызывает то, как нейросеть «считывает» маркеры документальной съёмки: появляются лёгкая зернистость, естественный бокэ и случайные детали на периферии кадра, создающие ощущение подлинности.

Частые ошибки, которые портят результат

Буквально в каждом втором чате, посвящённом Midjourney, всплывают одни и те же жалобы: «нейросеть меня не понимает», «результат не похож на то, что я хотел». На самом деле проблема почти всегда кроется в промте, а не в алгоритме. Одна из самых распространённых ошибок — избыточная абстракция. Запрос «something beautiful and amazing» не несёт для нейросети никакой конкретной информации. Что именно красиво? Цветок? Закат? Лицо ребёнка? Без ответа на этот вопрос алгоритм генерирует нечто усреднённое и пресное.

Ещё одна ловушка — противоречивые указания в одном промте. Если написать «a dark gloomy forest, bright sunny day, cheerful atmosphere», нейросеть попытается совместить несовместимое и выдаст визуальную кашу. Стоит задуматься: какой именно эмоции вы хотите от зрителя? И уже от этого ответа выстраивать всё описание. К тому же не стоит забывать о грамматике английского языка в промте. Да, Midjourney толерантна к ошибкам, но правильно построенные фразы с прилагательными перед существительными («ancient crumbling stone bridge», а не «bridge stone ancient crumbling») дают заметно более точный результат.

Продвинутые техники: смешивание изображений и весовые коэффициенты

Помимо текстовых промтов Midjourney умеет работать с изображениями-референсами. Достаточно вставить ссылку на картинку перед текстовым описанием, и нейросеть учтёт её стилистику, цветовую гамму или композицию при генерации. Это мощный инструмент для тех, кто точно знает, «как должно выглядеть», но затрудняется описать это словами. А если совместить два референса с текстовым промтом, можно получить совершенно неожиданный гибрид.

Весовые коэффициенты (multi-prompts) — ещё одна изюминка для продвинутых пользователей. Двойное двоеточие позволяет задать приоритет отдельным частям промта. Например, запрос «vibrant tropical jungle::3 ancient temple ruins::2 morning mist::1 —ar 16:9» говорит нейросети: «джунгли — главный элемент, руины — второстепенный, туман — лёгкий штрих». Без весов все три элемента получили бы равный приоритет, и композиция вышла бы перегруженной. Тем более что в сложных многосоставных сценах контроль над «весом» каждого компонента — это разница между хаосом и гармонией.

Как экспериментировать и не терять время?

Генерация изображений в Midjourney бьёт по бюджету — не в денежном смысле (хотя подписка тоже не сильно ударит по кошельку), а во временном. Каждый запрос расходует минуты GPU-времени, и на базовом тарифе их количество ограничено. Поэтому скрупулёзный подход к формулировке промта экономит ресурсы. Перед тем как запускать финальную генерацию, имеет смысл прогнать несколько быстрых тестов на низком качестве (—q 0.5) и с высоким хаосом (—chaos 50). Это даст общее представление о направлении, в котором движется нейросеть. А уже потом, определившись с удачной композицией, можно выкрутить качество на максимум и сделать апскейл (увеличение разрешения) понравившегося варианта.

К слову, функция —seed позволяет зафиксировать «зерно» генерации — числовое значение, от которого отталкивается алгоритм. Если результат почти устраивает, но хочется внести мелкие правки, можно сохранить seed и слегка изменить текст промта. Нейросеть сгенерирует похожее изображение с учётом новых корректировок. Это же правило касается и —sref — стилевого референса, появившегося в шестой версии. Он позволяет «запомнить» визуальный стиль одной генерации и перенести его на другие промты. Для серии иллюстраций в едином стиле (например, для детской книги или настольной игры) инструмент бесценный.

Промты для коммерческих задач

Не секрет, что Midjourney всё чаще используют не только энтузиасты, но и дизайнеры, маркетологи, владельцы малого бизнеса. Для обложки блога или поста в социальных сетях подойдёт промт вроде «flat lay composition of coffee cup, notebook, and autumn leaves on a wooden table, warm tones, soft overhead lighting, lifestyle photography —ar 4:5 —v 6.1 —stylize 200». Результат — атмосферная добротная фотография, готовая к публикации без дополнительной обработки. Для концепт-артов интерьера запрос может выглядеть иначе: «a cozy Scandinavian living room, floor-to-ceiling windows overlooking a snowy forest, sheepskin rugs, warm wood accents, natural light, architectural digest photography —ar 16:9». Нейросеть в таком случае тяготеет к журнальной эстетике и выдаёт изображение, которое хоть сейчас на обложку.

Впрочем, есть и подводные камни. Коммерческое использование генераций Midjourney регулируется лицензионным соглашением, и не стоит забывать о нём. На платных тарифах пользователь получает право на коммерческое применение, но на бесплатном (если он ещё доступен) — нет. Да и вопрос авторского права на AI-арт до сих пор остаётся неоднозначным в правовом поле многих стран. Тем более что судебные прецеденты по этой теме появляются буквально каждый месяц.

Что насчёт русского языка в промтах?

Можно ли писать промты на русском? Технически — да, Midjourney обработает запрос и на кириллице. Но результат окажется заметно хуже. Это связано с тем, что модель обучалась преимущественно на англоязычных описаниях изображений, и семантическая точность на английском в разы выше. Русское слово «уютный» нейросеть может интерпретировать совсем иначе, чем англоязычный эквивалент «cozy», к которому привязаны миллионы визуальных ассоциаций. Поэтому даже при минимальном знании английского стоит формулировать промты именно на нём. А если язык совсем не даётся, на помощь придёт любой онлайн-переводчик — главное, проверить, что перевод не исказил смысл.

Играть в текстовые ролевые игры бесплатно

Где искать вдохновение для промтов?

Сообщество Midjourney — настоящий кладезь идей. На официальном сервере Discord ежедневно публикуются тысячи генераций вместе с промтами, которые к ним привели. Достаточно найти изображение, которое приковывает внимание, и изучить его промт — а затем адаптировать под свои нужды. Кроме того, существуют специализированные сайты-библиотеки промтов: PromptHero, Lexica, Arthub.ai и другие. Каждый из них собирает удачные запросы с превью результатов. Ну и, конечно же, не стоит недооценивать силу личного эксперимента. Иногда самые впечатляющие арты рождаются из случайного сочетания слов, которое никому бы не пришло в голову заложить в промт намеренно.

Путь от первого неуклюжего запроса до стабильно качественных генераций занимает не так много времени, как может показаться. Пара десятков экспериментов, понимание базовой структуры промта и внимание к деталям — вот, пожалуй, и весь рецепт. А Midjourney, при всей своей алгоритмической природе, довольно щедро вознаграждает тех, кто подходит к запросам с фантазией и скрупулёзностью. Удачи в генерации — пусть каждый новый арт радует глаз и вдохновляет на следующий.