Описание изображения в стиле Midjourney: примеры удачных промтов

Нейросети, генерирующие картинки по текстовому описанию, буквально за пару лет превратились из забавной диковинки в полноценный рабочий инструмент. Дизайнеры, маркетологи, блогеры и просто творческие натуры — все они хоть раз пробовали набрать пару слов в строке Midjourney и получить на выходе нечто впечатляющее. Однако между «набрать пару слов» и «получить именно тот результат, который задумывался» лежит пропасть. Ведь нейросеть не умеет читать мысли, и львиная доля успеха зависит от того, насколько грамотно составлен промт — то самое текстовое описание будущего изображения. А чтобы не тратить часы на бесконечные переделки, стоит разобраться в анатомии удачного запроса ещё до первого нажатия на кнопку «Generate».

Что такое промт и почему от него зависит всё?

Промт (от английского prompt — «подсказка») — это текстовая инструкция, которую пользователь отправляет нейросети. Казалось бы, всё просто: опиши картинку словами, а машина нарисует. На деле же Midjourney воспринимает текст совсем не так, как человек воспринимает речь собеседника. Каждое слово в промте имеет определённый вес, а порядок этих слов влияет на приоритет элементов. Стоит поставить слово «закат» в начало фразы — и именно закат будет солировать на картинке. Переместить его в конец — и он окажется лишь фоновой деталью, едва заметной за основным объектом. Вся суть в том, что нейросеть «читает» промт слева направо, постепенно ослабляя внимание к каждому последующему фрагменту.

Многие считают, что достаточно написать «красивый пейзаж с горами», и Midjourney сама додумает остальное. Но на самом деле такой расплывчатый запрос — прямой путь к довольно невыразительному результату. Нейросеть не понимает слова «красивый» так, как понимает его человек. Ей нужна конкретика: какой свет, какое время суток, с какого ракурса смотрит камера, в каком стиле выполнена работа. Без этих нюансов алгоритм заполнит пробелы случайными решениями, и вместо изысканного горного пейзажа на рассвете можно получить что-то невнятное и серое.

Из чего складывается удачный запрос?

Скелет промта. У каждого добротного текстового описания для Midjourney есть внутренняя структура, хоть и не жёсткая. Первым идёт главный объект — то, что должно приковывать внимание зрителя. Затем описывается окружение или контекст, в который этот объект помещён. Следом — стилистические указания: техника, эпоха, имя конкретного художника или фотографа (да, Midjourney распознаёт сотни имён). Ну и, наконец, технические параметры: соотношение сторон, степень стилизации, версия модели. Именно такой порядок — от содержания к форме — работает стабильнее всего.

Отдельно стоит упомянуть так называемые negative prompts — указания того, чего на картинке быть не должно. К примеру, если в запросе фигурирует портрет, а нейросеть упорно добавляет лишние пальцы или размытый фон, помогает конструкция —no blurry, extra fingers. Это своеобразный спасательный круг для ситуаций, когда алгоритм слишком вольно интерпретирует задачу. Впрочем, злоупотреблять негативными промтами тоже не стоит: чем длиннее список запретов, тем сильнее ограничивается творческое пространство модели, и результат может выглядеть «зажатым».

Как описать стиль и настроение?

Здесь начинается самое интересное. Midjourney — настоящий кладезь стилистических возможностей, и умение ими пользоваться отличает новичка от опытного «промт-инженера». Один из самых популярных приёмов — ссылка на конкретного автора. Фраза in the style of Hayao Miyazaki мгновенно окрашивает изображение мягкими акварельными тонами, а упоминание Greg Rutkowski тяготеет к детализированному фэнтези с драматичным освещением. К слову, смешивание двух-трёх авторов в одном промте нередко даёт совершенно неожиданные и при этом довольно колоритные комбинации.

Настроение передаётся не только через имена, но и через прилагательные, описывающие свет и атмосферу. Moody, ethereal, cinematic lighting, golden hour, overcast — каждое из этих слов подталкивает генерацию в определённом направлении. Нужно отметить, что прилагательные работают тем мощнее, чем ближе они стоят к главному объекту. Написать «a lonely lighthouse, dramatic storm clouds, cinematic lighting» — это одно. А «cinematic lighting, dramatic storm clouds, a lonely lighthouse» — уже совсем другое, потому что акцент сместится на сам свет, а маяк уйдёт на второй план. И разница между этими двумя вариантами бросается в глаза буквально с первого взгляда.

Примеры удачных промтов с разбором

Теория — дело нужное, но без практики она мертва. Разберём несколько реальных промтов, которые стабильно дают впечатляющие результаты.

Пример 1: A weathered Japanese fisherman mending nets on a wooden dock at dawn, soft pink and amber light reflecting on calm ocean water, shot on Kodak Portra 400, shallow depth of field, photorealistic —ar 16:9 —v 6

Что здесь работает? Во-первых, главный объект описан не просто как «рыбак», а как «потрёпанный временем японский рыбак, чинящий сети». Это сразу задаёт характер и действие — нейросети гораздо проще «зацепиться» за конкретное занятие, чем за статичную фигуру. Во-вторых, свет прописан дважды: через время суток (at dawn) и через цвета (soft pink and amber). А упоминание плёнки Kodak Portra 400 добавляет узнаваемую зернистость и тёплую тональность. Ведь Midjourney «знает» характеристики популярных фотоплёнок и довольно точно их имитирует.

Пример 2: An abandoned Art Deco cinema overtaken by tropical jungle, cracked marble floors, vines crawling through broken chandeliers, volumetric god rays through collapsed roof, matte painting style, concept art —ar 21:9 —s 750

Тут изюминка — в контрасте двух миров. Роскошный кинотеатр в стиле ар-деко, поглощённый джунглями, — образ сам по себе грандиозный. Но обратите внимание на детали: потрескавшийся мрамор, лианы, обвивающие люстры, лучи света сквозь обрушившуюся крышу. Каждая деталь работает на общую атмосферу запустения и дикой красоты. Параметр —s 750 повышает степень стилизации (по умолчанию стоит 100), и картинка получается более «художественной», менее фотографичной. Тем более что указание matte painting style дополнительно уводит результат в сторону кинематографического концепт-арта.

Пример 3: Close-up portrait of an elderly Berber woman with indigo tattoos on her chin, deep wrinkles telling stories, warm directional light from a single oil lamp, Rembrandt lighting, oil painting on linen canvas, rich earth tones —ar 4:5 —v 6

Портреты в Midjourney — тема щепетильная, потому что именно на лицах чаще всего всплывают артефакты. Но этот промт работает стабильно. Дело в том, что он даёт нейросети очень чёткую «карту»: крупный план, конкретный тип персонажа, осязаемая деталь (татуировки индиго на подбородке), источник света (масляная лампа), схема освещения по Рембрандту. А указание на масляную живопись по льняному холсту снимает проблему фотореализма — в «живописном» режиме мелкие огрехи кожи и глаз воспринимаются как авторская манера, а не как ошибка алгоритма.

Стоит ли использовать длинные описания?

Неоднозначный вопрос. Многие новички грешат тем, что пишут промты на пятнадцать строк, пытаясь описать каждый пиксель будущей картинки. Но Midjourney — не исполнительный секретарь, а скорее творческий партнёр со своим видением. Слишком длинный промт перегружает модель, и она начинает «забывать» элементы, упомянутые в начале. Оптимальная длина — где-то между тридцатью и семьюдесятью пятью словами. Этого хватает, чтобы обозначить объект, среду, стиль, свет и пару-тройку деталей, создающих антураж.

А вот слишком короткий промт — другая крайность. Написать «cat» и ждать шедевра — затея сомнительная. Да, нейросеть выдаст кота, но какого именно кота, в каком окружении и с какой эмоцией — решит за тебя. И далеко не факт, что это решение совпадёт с задумкой. Золотая середина — конкретное описание без избыточности. Не стоит перечислять двадцать оттенков зелёного в одном запросе, если достаточно сказать emerald and sage green palette.

Технические параметры и их влияние

За двойными дефисами в конце промта скрывается мощный инструментарий настройки. Самый очевидный — —ar (aspect ratio), задающий пропорции холста. Для пейзажей хорошо работает 16:9 или даже кинематографическое 21:9. Портреты лучше всего смотрятся в 4:5 или 3:4. А вот квадратный формат 1:1, который Midjourney использует по умолчанию, подходит далеко не для всех сюжетов — он довольно часто «обрезает» пространство неудачно.

Следующий важный параметр — —s (stylize). Чем выше значение, тем больше «вольностей» позволяет себе нейросеть. При —s 50 результат максимально близок к буквальному прочтению промта. При —s 1000 модель начинает импровизировать, добавляя эффектные детали, которые в запросе не упоминались. Для коммерческих задач (когда нужен предсказуемый добротный результат) лучше держаться в диапазоне от ста до четырёхсот. Для творческих экспериментов — можно смело выкручивать выше. К тому же существует параметр —chaos, который влияет на разброс вариантов в одной генерации. При высоком значении (скажем, 80 из 100) четыре картинки в сетке будут радикально отличаться друг от друга, и среди них порой натыкаешься на что-то по-настоящему неожиданное.

Подводные камни и типичные ошибки

Руки. Это первое, что приходит на ум, и это же первая ложка дёгтя для тех, кто генерирует персонажей. Midjourney научилась рисовать руки заметно лучше, чем годом ранее, но шесть пальцев на одной кисти по-прежнему не редкость. Спасает здесь либо обрезка кадра (крупный план лица, фигура по пояс), либо ситуативная хитрость — персонаж в перчатках, со сложенными за спиной руками, держащий объёмный предмет.

Другая распространённая проблема — текст на изображении. Попросить нейросеть написать слово на вывеске или футболке — идея рискованная. Буквы часто превращаются в бессмысленную мешанину символов, отдалённо напоминающих латиницу. Версия 6 справляется с этим лучше предшественниц, особенно если заключить нужный текст в кавычки прямо внутри промта, но результат всё равно нестабильный. Не стоит рассчитывать, что Midjourney заменит графический редактор в деле создания надписей.

Ну и, конечно же, тавтология. Когда в промте три раза повторяется слово beautiful, нейросеть не генерирует «втрое красивее» — она просто игнорирует повторы и тратит токены впустую. Каждое слово в описании должно нести новую информацию. Вместо beautiful gorgeous stunning landscape разумнее написать majestic alpine valley bathed in amber twilight. Конкретика всегда побеждает абстракцию.

Как развить «чутьё» на промты?

Насмотренность. Это же правило работает в живописи, фотографии и кинематографе — оно справедливо и здесь. Сообщества вроде r/midjourney на Reddit или тематические каналы в Discord ежедневно публикуют тысячи изображений вместе с промтами, которые их породили. Разбирать чужие удачные запросы — занятие не менее полезное, чем писать свои. Со временем начинаешь замечать закономерности: какие слова «цепляют» модель, какие комбинации стилей дают самобытный результат, а какие — предсказуемую посредственность.

Второй способ — вести собственную «библиотеку промтов». Каждый удачный результат стоит сохранять вместе с полным текстом запроса и параметрами. Через месяц-другой из этих записей складывается персональный арсенал приёмов, заточенный под конкретные задачи. Кто-то специализируется на фуд-фотографии и знает, что overhead flat lay, marble countertop, natural window light работает безотказно. Кто-то тяготеет к фэнтези-иллюстрациям и держит наготове связки вроде epic scale, atmospheric perspective, painterly brushstrokes. Да и сам процесс систематизации приучает формулировать мысли точнее — а это, пожалуй, главный навык промт-инженерии.

Нужно ли знать английский на продвинутом уровне?

Не обязательно, но крайне желательно. Midjourney обучалась преимущественно на англоязычных описаниях, и именно на английском её словарный запас богаче всего. Русские промты тоже распознаются (начиная с пятой версии модели), однако результат зачастую менее предсказуем. Одно и то же слово «туманный» может интерпретироваться иначе, чем misty или foggy, — а ведь между этими двумя английскими синонимами тоже есть ощутимая разница в генерации. Misty даёт лёгкую дымку, foggy — плотную пелену, сквозь которую едва проступают очертания.

Для тех, кто не дружит с английским, спасательным кругом станет обычный переводчик в связке с тезаурусом синонимов. Важно не просто перевести описание, а подобрать слово с нужным оттенком значения. Вместо big castle — towering fortress или sprawling medieval citadel. Разница в результате будет внушительной. Тем более что Midjourney гораздо охотнее работает с конкретными существительными и прилагательными, чем с абстрактными понятиями вроде beauty или emotion.

Промт как творческий акт

Буквально три-четыре года назад само понятие «промт-инженерия» казалось чем-то из области научной фантастики. Сейчас это вполне реальная дисциплина, которой посвящают курсы, статьи и даже вакансии на рынке труда. Но за техническими терминами и параметрами не стоит забывать о главном: промт — это прежде всего акт воображения. Прежде чем описать картинку словами, её нужно увидеть внутренним взором. Представить свет, текстуры, масштаб, эмоцию. И только потом переложить это видение в последовательность слов, понятную алгоритму.

Сам процесс напоминает работу режиссёра с оператором: ты не рисуешь кадр своими руками, но направляешь того, кто рисует. Чем точнее режиссёрское видение, тем ближе результат к замыслу. А если замысла нет — получится случайная красивая картинка, одна из миллионов. Ничего плохого в этом нет, но и запоминаться такая работа будет едва ли. Настоящий скрупулёзный подход к промтам превращает генерацию из лотереи в осознанное ремесло, где каждый удачный кадр — не случайность, а закономерность.

Удачи в освоении этого нового языка общения с нейросетями — с каждым следующим промтом формулировки будут становиться точнее, результаты ярче, а удовольствие от процесса только расти. Ведь Midjourney щедро вознаграждает тех, кто не ленится думать перед тем, как нажать кнопку.