Создание промптов для Midjourney: пошаговое руководство с примерами

В сети ежедневно появляются тысячи изображений, сгенерированных нейросетями, и львиная доля из них выглядит, мягко говоря, неоднозначно. Размытые лица, странная анатомия, пластиковая трава — зрелище порой удручающее. А ведь тот же Midjourney способен выдавать картинки, от которых у профессиональных иллюстраторов перехватывает дыхание. Вся суть в том, что между посредственным результатом и грандиозным шедевром стоит всего одно звено — грамотно составленный промпт. Это и есть тот самый «спасательный круг», который вытягивает генерацию из болота безликих картинок. Но чтобы этим инструментом пользоваться уверенно, стоит разобраться в его устройстве по-настоящему скрупулёзно.

Все топовые нейросети в одном месте

Что такое промпт и почему он решает всё?

Промпт для Midjourney — это текстовая инструкция, которую пользователь вводит в чат-бот Discord, а нейросеть на её основе генерирует изображение. Казалось бы, дело нехитрое: написал пару слов — получил картинку. Однако на практике между «cat» и «a majestic Maine Coon cat sitting on a velvet armchair, golden hour lighting, shot on Hasselblad» лежит пропасть. Первый запрос выдаст нечто усреднённое и довольно скучное, второй же заставит нейросеть задействовать совершенно иные паттерны. Дело в том, что Midjourney обучена на миллиардах пар «текст-изображение», и чем точнее текстовое описание попадает в определённый кластер, тем предсказуемее и качественнее окажется результат. К слову, именно поэтому опытных составителей промптов в сообществе иногда называют «prompt engineers» — это ведь действительно инженерная задача.

Анатомия добротного промпта

Начать нужно со структуры. Каждый промпт в Midjourney состоит из нескольких смысловых блоков, которые нейросеть считывает последовательно. Первый и самый весомый блок — это основной объект. Именно он задаёт «что» на картинке. Сюда попадает главный герой или предмет: «abandoned lighthouse», «samurai warrior», «glass vase with wildflowers». И вот важный нюанс — слова, стоящие ближе к началу промпта, нейросеть обрабатывает с бо́льшим весом. Поэтому не стоит прятать ключевой объект в середину длинного предложения. Пусть он солирует с первых слов.

Следующий важный элемент — окружение и сцена. Тут описывается фон, обстановка, время суток и погода. Без этого блока Midjourney сама додумает контекст, и результат может оказаться непредсказуемым. Вместо «knight» лучше написать «knight standing in a misty forest at dawn». Разница колоссальная. А вот третий блок — стиль и эстетика. Здесь можно указать имя художника (например, «in the style of Alphonse Mucha»), технику исполнения («oil painting», «watercolor sketch», «digital art»), эпоху или направление («Art Deco», «cyberpunk», «Baroque»). Именно этот блок придаёт изображению характер, превращая безликую иллюстрацию в нечто самобытное.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

Ну и, наконец, четвёртый блок — технические параметры. Это всё, что идёт после основного текста через двойное тире: соотношение сторон (—ar 16:9), степень стилизации (—stylize 750), версия модели (—v 6.1) и прочие настройки. Многие новички об этом блоке забывают напрочь, а потом удивляются, что картинка получилась квадратной, хотя задумывалась как панорама. Не стоит пренебрегать техническими флагами — они тонко, но ощутимо влияют на финальный результат.

С чего начинается работа над запросом?

Задача не из лёгких. Ведь прежде чем набирать текст в строке Discord, нужно чётко представить себе желаемую картинку. И тут довольно часто всплывает одна проблема — люди мыслят абстракциями. «Хочу что-то красивое» или «сделай мне крутой логотип» — такие запросы нейросеть переваривает плохо. Гораздо продуктивнее действовать методом от общего к частному. Сначала стоит зафиксировать жанр: фотография, иллюстрация, 3D-рендер, концепт-арт. Потом определиться с главным объектом. Затем мысленно «поставить камеру» — решить, с какого ракурса зритель увидит сцену: крупный план, вид сверху, фронтальная композиция. И уже после этого добавлять детали. Такой подход экономит время и нервы.

Многие считают, что чем длиннее промпт, тем лучше. Но на самом деле это не совсем так. Midjourney (особенно версии 5.2 и 6) прекрасно справляется с запросами средней длины — от 30 до 75 слов. Слишком короткие дают мало контроля, слишком длинные начинают конфликтовать сами с собой: нейросеть пытается уместить все описания разом и порой выдаёт хаотичную мешанину. Золотая середина — три-четыре внятных предложения, где каждое слово несёт смысловую нагрузку.

Как описывать стиль и настроение?

Стилевые указания — настоящий кладезь возможностей. Одна и та же сцена, описанная с разными стилистическими приставками, будет выглядеть совершенно по-разному. Возьмём простой объект: старый маяк на скалистом берегу. Добавив «cinematic lighting, moody atmosphere, shot on 35mm film», мы получим атмосферную кинематографическую фотографию. А вот если написать «Studio Ghibli style, soft pastel colors, whimsical», результат приобретёт черты японской анимации — мягкие тона, округлые формы, почти сказочный антураж. Нейросеть тяготеет к конкретике, поэтому абстрактное «красивый стиль» ей мало что скажет.

Отдельно стоит упомянуть работу с освещением. Это, пожалуй, один из самых недооценённых инструментов в арсенале промпт-инженера. Фразы «golden hour», «harsh midday sun», «neon glow», «candlelight», «overcast diffused light» кардинально меняют настроение картинки. К тому же грамотное указание на источник света добавляет объём и глубину. Без него изображение часто выходит плоским, словно вырезанным из журнала девяностых. А ведь именно свет во многом определяет, зацепит картинка зрителя или нет.

Подводные камни и типичные ошибки

Ложка дёгтя, впрочем, тоже найдётся. Одна из самых распространённых ошибок — избыточность прилагательных. Когда промпт превращается в нагромождение эпитетов вроде «beautiful amazing stunning gorgeous incredible breathtaking», нейросеть буквально теряется. Вес каждого отдельного слова снижается, и вместо «потрясающей» картинки получается средненькое «красивое ничего». Не стоит перебарщивать с восторженными определениями — одного-двух точных и ёмких вполне хватит.

Ещё одна ловушка — конфликтующие инструкции. Написать «dark moody atmosphere, bright cheerful colors» — всё равно что просить художника нарисовать квадратный круг. Нейросеть попытается угодить обеим просьбам одновременно и выдаст нечто невнятное. Безусловно, контрасты в искусстве — вещь мощная, но задавать их нужно осмысленно. Скажем, «dark background with a single bright red flower in the center» — это уже грамотный контраст, а не логическое противоречие. И такой нюанс бросается в глаза далеко не сразу. Многие тратят десятки генераций, прежде чем понимают, что проблема кроется именно в противоречивых описаниях.

Нельзя не упомянуть и про негативные промпты. В Midjourney (начиная с версии 5) для этого используется параметр —no. Хочется, чтобы на портрете не было очков? Дописываем «—no glasses». Нужно убрать текст с изображения? «—no text, letters, words». Да, работает это не со стопроцентной точностью — всё-таки нейросеть мыслит вероятностями, — но в семидесяти процентах случаев нежелательные элементы действительно исчезают. А если не помогло, стоит просто перегенерировать картинку, нажав на кнопку повторной генерации.

Параметры, которые меняют правила игры

Технические параметры в Midjourney — это тот рычаг, который позволяет тонко управлять результатом, не меняя текстовую часть промпта. Первый и, пожалуй, самый востребованный — —ar (aspect ratio). По умолчанию нейросеть генерирует квадрат 1:1, но для пейзажей куда лучше подходит 16:9, для портретов — 2:3, а для историй в социальных сетях — 9:16. Эта настройка не просто обрезает картинку, она перестраивает всю композицию. Разница ощутимая.

Далее следует —stylize (или сокращённо —s). Значение по умолчанию — 100, но диапазон простирается от 0 до 1000. Чем выше цифра, тем «художественнее» и свободнее интерпретация нейросети. При —s 0 Midjourney старается максимально точно следовать тексту, при —s 750 — добавляет собственный изысканный колорит, порой весьма неожиданный. Для коммерческих задач (дизайн баннера, карточка товара) лучше держаться в диапазоне от 50 до 200, а для арт-экспериментов — можно смело выкручивать до 600–1000. К слову, именно высокий stylize часто даёт те самые «вау-эффекты», ради которых люди и грезят о нейрогенерации.

Есть ещё параметр —chaos (от 0 до 100). Он определяет, насколько разнообразными будут четыре варианта в сетке. При —chaos 0 все четыре картинки окажутся довольно похожими друг на друга. При —chaos 80 каждая из них пойдёт своей дорогой, и иногда среди этого хаоса натыкаешься на совершенно неожиданные решения, до которых сам бы не додумался. Впрочем, высокий chaos — это всегда рулетка. Кому-то нравится, кого-то раздражает.

Примеры промптов: от простого к сложному

Теория без практики мертва. Поэтому стоит разобрать несколько конкретных примеров, чтобы разложить механику по полочкам. Начнём с самого простого варианта — портретная фотография. Промпт может выглядеть так: «Portrait of an elderly Japanese fisherman, weathered skin, deep wrinkles, kind eyes, wearing a traditional straw hat, natural daylight, shallow depth of field, shot on Canon EOS R5 —ar 2:3 —v 6.1». Здесь мы сразу задаём объект (пожилой рыбак), ключевые детали внешности (морщины, добрые глаза), атрибут (соломенная шляпа), свет (естественный), оптический эффект (малая глубина резкости) и даже модель камеры. Последнее — интересный трюк: упоминание конкретной камеры подталкивает нейросеть к фотореалистичной стилистике.

Усложним. Допустим, нужен концепт-арт фантастического города. Пишем: «A floating city above the clouds, Art Deco architecture mixed with organic alien structures, bioluminescent bridges connecting towers, twin suns setting in a purple sky, volumetric fog, concept art by Syd Mead —ar 16:9 —s 400 —v 6.1». Тут появляются множественные детали: архитектурный стиль (Art Deco), инопланетные элементы, биолюминесценция, двойное солнце, туман. И главное — отсылка к Сиду Миду, легендарному концепт-художнику, чьё имя Midjourney прекрасно «знает». Результат обычно приковывает внимание с первой секунды.

А вот пример для предметной съёмки, скажем, для карточки товара: «Minimalist product photography of a ceramic coffee mug, matte terracotta glaze, on a raw linen tablecloth, soft studio lighting from the left, clean white background, 85mm lens —ar 4:5 —s 50 —no text, logo». Обратите внимание на низкий stylize — здесь не нужна «художественная вольность», важна точность. И параметр —no убирает любые надписи, которые нейросеть иногда норовит добавить на кружку или фон. Для коммерческих целей такой добротный минималистичный подход работает лучше всего.

Стоит ли использовать ссылки на изображения?

Да, и это мощнейший инструмент. Midjourney позволяет добавлять URL изображения прямо в начало промпта, и тогда нейросеть использует его как визуальный ориентир. Это открывает массу возможностей: можно загрузить фотографию интерьера и попросить перерисовать его в другом стиле, можно дать нейросети референс настроения (moodboard) или даже смешать два разных изображения. Формат простой: сначала ссылка (или две), затем текстовое описание, затем параметры.

Однако и тут есть свои подводные камни. Нейросеть не копирует референс буквально — она извлекает из него общую цветовую палитру, композицию, настроение. Поэтому ожидать точного воспроизведения не стоит. Тем более что вес изображения можно регулировать параметром —iw (image weight), который варьируется от 0 до 2. При —iw 2 нейросеть максимально «цепляется» за визуальный референс, при —iw 0.5 — лишь слегка на него оглядывается. И вот тут начинается самая интересная часть экспериментов: подбирая баланс между текстом и изображением, можно добиться совершенно непредсказуемых, но впечатляющих результатов.

Мульти-промпты и весовые коэффициенты

Мало кто из новичков знает про мульти-промпты, а между тем это — настоящая изюминка продвинутой работы с Midjourney. Суть такова: двойное двоеточие (::) разделяет промпт на независимые смысловые части, каждой из которых можно присвоить собственный вес. Например, промпт «hot dog» с большой вероятностью выдаст булку с сосиской. А вот «hot:: dog» — перегревшуюся собаку. Двойное двоеточие говорит нейросети: «Это два отдельных понятия, не склеивай их в одно».

Но механика идёт глубже. К каждому сегменту можно приписать числовой вес. Скажем, «vibrant tropical jungle::2 ancient stone temple::1 morning mist::0.5». Здесь джунгли получают вдвое больший приоритет, чем храм, а туман — лишь лёгкий акцент. Такой подход позволяет тонко управлять балансом элементов в композиции, не прибегая к длинным описаниям. Да и вообще — мульти-промпты экономят слова, а значит, снижают риск конфликтов внутри запроса. Это довольно элегантное решение для сложных сцен.

Как итерировать и дорабатывать результат?

Первая генерация редко оказывается идеальной. Это нормально. Ведь процесс создания изображения в Midjourney — всегда итеративный. После получения сетки из четырёх вариантов есть несколько путей. Можно увеличить понравившийся вариант кнопкой U (upscale), а можно создать четыре новые вариации на его основе кнопкой V. С появлением версии 6.1 добавились ещё и «Subtle» (тонкие) и «Strong» (сильные) вариации, что даёт куда больше контроля над процессом доработки.

Отдельно стоит упомянуть функцию —seed. Каждая генерация имеет свой уникальный числовой идентификатор — сид. Если результат понравился, но хочется слегка изменить промпт (например, поменять цвет неба), можно зафиксировать сид и вносить правки в текст. Нейросеть при том же сиде и похожем промпте выдаст очень близкую композицию, но с учётом изменений. Это удобно. Ведь без фиксации сида каждая генерация стартует «с нуля», и предсказать результат становится ещё сложнее. Впрочем, не стоит ожидать стопроцентного совпадения даже с одинаковым сидом — нейросеть всё-таки вероятностная модель, а не калькулятор.

Чем версия 6 отличается от предыдущих?

Буквально пару лет назад, когда Midjourney работала на версиях 3 и 4, результаты выглядели совершенно иначе. Тёплые, «живописные» картинки с характерной зернистостью и лёгким сюрреализмом — таким был фирменный почерк ранних версий. С приходом v5 нейросеть резко повзрослела: фотореализм вышел на новый уровень, руки перестали выглядеть жутковато (хотя и не всегда), а детализация выросла в разы. Но настоящий прорыв случился с версией 6.

Главное отличие v6 — радикально улучшенное понимание естественного языка. Если раньше приходилось писать промпты в «телеграфном» стиле, через запятую, почти как теги, то теперь нейросеть прекрасно воспринимает полноценные предложения. Более того, она стала лучше работать с текстом внутри изображений — достаточно взять нужное слово в кавычки, и оно (с переменным успехом, но всё же) появится на вывеске, футболке или плакате. Кроме того, v6 гораздо щепетильнее относится к деталям промпта: если написано «три яблока на столе», на картинке с высокой вероятностью окажутся именно три, а не пять или одно. Раньше о таком можно было только мечтать.

Промпты для разных задач: практические рецепты

Дизайнеру интерьеров, блогеру, маркетологу и художнику-концептуальщику нужны совершенно разные промпты. Для интерьерной визуализации хорошо работают фразы вроде «interior design photography», «architectural digest style», «natural materials» — они задают тон реалистичной предметной съёмки. Не стоит забывать про указание ракурса: «wide-angle lens», «eye-level shot» или «bird’s eye view». И ещё один нюанс, который часто упускают, — масштаб мебели. Без прямого указания нейросеть иногда выдаёт стулья размером с дом или светильники, парящие под потолком на неестественной высоте.

Для создания персонажей (иллюстрация, геймдев) стоит задуматься над несколькими вещами сразу. Во-первых, поза и выражение лица. Во-вторых, детали костюма и аксессуары. Ну и, наконец, стиль рендера — «cel-shaded», «realistic», «painterly». К примеру, промпт «A rogue elven archer, dark leather armor with silver buckles, quiver on her back, confident smirk, standing on a moss-covered ruin, dramatic side lighting, fantasy concept art in the style of Craig Mullins —ar 2:3 —s 300» даёт нейросети достаточно информации для создания выразительного, детализированного персонажа. А если нужен тот же герой с другого ракурса, достаточно заменить «standing» на «close-up portrait» и скорректировать соотношение сторон.

Все топовые нейросети в одном месте

Что насчёт авторских прав и этики?

Тема неоднозначная. Midjourney обучена на массиве изображений из интернета, и вопрос о том, насколько этично использовать стиль конкретного живого художника, вызывает жаркие споры в профессиональном сообществе. На самом деле юридическая сторона вопроса пока находится в серой зоне. Midjourney в своих условиях использования разрешает коммерческое применение генераций (при условии платной подписки), но ответственность за возможные претензии по авторским правам ложится на пользователя. Тем более что в некоторых юрисдикциях сгенерированные нейросетью изображения вообще не подлежат защите авторским правом, поскольку у них нет «человеческого автора» в традиционном понимании. Подводных камней здесь хватает, и щепетильным коммерческим проектам лучше перестраховаться: не указывать имена живущих художников и использовать более общие стилевые описания.

Как выстроить собственную библиотеку промптов?

Опытные пользователи давно ведут персональные базы успешных промптов. Это не просто удобно — это экономит часы работы. Каждый раз, когда генерация получается удачной, стоит сохранить полный текст промпта вместе с параметрами и сидом. Со временем из таких записей складывается персональная добротная библиотека шаблонов, которую можно адаптировать под новые задачи, подставляя другие объекты, стили и настройки. Кто-то хранит всё в обычных заметках на телефоне, кто-то заводит таблицу в Notion с тегами и категориями. Метод не важен — важна регулярность.

Да и самим экспериментам стоит выделять отдельное время. Не под конкретный проект, а просто ради исследования. Именно в свободных экспериментах рождаются те самые формулировки, которые потом становятся «рабочими лошадками» в коммерческих задачах. К тому же Midjourney постоянно обновляется, и приёмы, которые работали полгода назад, могут вести себя иначе на новой версии модели. Так что библиотеку промптов не стоит воспринимать как нечто статичное — она живёт и эволюционирует вместе с нейросетью.

Освоение промптов для Midjourney — процесс не сложный, но кропотливый, и с каждой новой генерацией понимание механики становится всё глубже. Ни одна статья не заменит десятков собственных экспериментов, когда за каждым изменённым словом наблюдаешь, как сдвигается результат. Со временем формулировки начнут рождаться почти интуитивно, а нейросеть перестанет казаться чёрным ящиком. Удачи в создании визуальных шедевров — тем более что инструмент для этого уже под рукой.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *