В сети промптов для Midjourney – тысячи, а то и десятки тысяч. Каждый второй блогер спешит поделиться «секретной формулой», которая якобы превращает нейросеть в послушного художника. Но стоит попробовать эти рецепты на практике, и результат довольно часто разочаровывает: вместо кинематографичного портрета – мыльная каша, вместо фэнтезийного пейзажа – нечто невразумительное с шестью пальцами на переднем плане. Дело в том, что львиная доля таких «шпаргалок» написана людьми, которые не понимают логику самой модели и просто копируют чужие наработки вслепую. А чтобы по-настоящему разобраться в механике хорошего промпта, стоит взять один конкретный пример и разложить его по полочкам.
Что вообще такое промпт и почему длина – не главное?
Многие считают, что чем длиннее текстовый запрос, тем детальнее окажется картинка. На самом деле связь здесь куда более тонкая. Midjourney обрабатывает промпт не так, как обыватель читает книгу – слово за словом, от начала к концу. Нейросеть разбивает текст на токены, и у каждого токена свой «вес» в итоговом изображении. Первые слова промпта всегда тяготеют к большему влиянию, а хвост запроса модель может попросту проигнорировать, если он раздут до двухсот слов. К слову, сами разработчики ещё в версии 5.2 рекомендовали не превышать порог в шестьдесят слов для оптимального результата. И всё же короткий промпт из трёх слов – тоже не спасательный круг. Вся суть в балансе между конкретикой и лаконичностью.
Образцовый промпт: разбираем до винтика
Вот пример, который довольно стабильно выдаёт впечатляющий результат:
A weathered Japanese fisherman mending nets on a wooden dock at golden hour, shot on Kodak Portra 400, shallow depth of field, warm amber light spilling across wet planks, subtle fog in the background, cinematic composition, 35mm lens —ar 16:9 —style raw —s 250
Выглядит внушительно, но на самом деле каждый элемент здесь несёт конкретную функцию. Нет ни одного случайного слова. Ни одного «красивого» прилагательного ради объёма. Именно такой скрупулёзный подход и отличает рабочий промпт от декоративной мишуры, которой забиты тематические форумы. А теперь – к деталям.
Нереальный визуал и кинематографичное видео в пару кликов 🎬
Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!
Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL
Субъект и его характеристика
Первое, на что натыкаешься в промпте, – a weathered Japanese fisherman mending nets. Здесь сразу три пласта информации, сжатых в пять слов. Во-первых, указан субъект – рыбак. Во-вторых, прилагательное weathered (обветренный, потрёпанный жизнью) задаёт не просто внешность, а целое настроение. Нейросеть «считывает» это слово и добавляет морщины, загрубевшую кожу, выгоревшую одежду – словом, весь тот антураж, который превращает абстрактную фигуру в живого персонажа. Ну и, наконец, действие – mending nets – привязывает героя к конкретному занятию. Без глагола или герундия Midjourney часто рисует человека в статичной позе, будто для каталога одежды. А вот действие творит чудеса: появляются руки в движении, наклон корпуса, натянутая сеть.
Стоит отметить один нюанс. Национальность (Japanese) тоже работает не просто как этническая привязка. Модель подтягивает культурный контекст: одежда, черты лица, даже тип лодки на заднем плане могут измениться. Убрав это единственное слово, вы получите совершенно другую картинку. Проверено.
Место действия и время суток
Следующий смысловой блок – on a wooden dock at golden hour. Деревянный причал и «золотой час». Казалось бы, мелочь. Но именно локация определяет, какие текстуры и цвета окажутся на холсте. Деревянные доски дают тёплую, шероховатую фактуру, которая выигрышно контрастирует с влажным блеском моря. А golden hour – пожалуй, самый мощный световой модификатор во всём словаре Midjourney. Эти два слова приковывают внимание нейросети к длинным мягким теням, медовым бликам и той самой «киношной» палитре, о которой грезят фотографы.
Можно ли заменить golden hour на sunset? Можно. Но результат будет отличаться. Закат (sunset) часто даёт более драматичное небо с оранжево-розовыми полосами, а золотой час тяготеет к ровному, разлитому теплу без резких цветовых всплесков. Разница тонкая, однако именно в таких нюансах и прячется профессионализм.
Как «обмануть» нейросеть стилем камеры?
Добротный фотографический приём – сослаться на конкретную плёнку или камеру. В нашем примере это shot on Kodak Portra 400. Зачем? Дело в том, что Midjourney обучена на миллионах фотографий, среди которых – огромное количество снимков, подписанных названиями плёнок. Модель «знает», как выглядит зерно Portra 400: мягкие пастельные тона, приглушённые тени, характерная передача кожи. Одна эта фраза заменяет целый абзац описаний цветовой гаммы.
К тому же, shallow depth of field (малая глубина резкости) и 35mm lens – ещё два оптических «якоря». Малая глубина резкости размывает фон и выводит героя на передний план, а фокусное расстояние в тридцать пять миллиметров даёт чуть более широкий угол, чем портретный полтинник, но при этом не искажает пропорции лица. Эта комбинация довольно часто встречается в документальной фотографии, и именно поэтому итоговая картинка выглядит не как иллюстрация из книги, а как кадр из фильма.
Атмосферные детали: свет и туман
Warm amber light spilling across wet planks. Вот она – изюминка промпта. Обратите внимание: свет не просто «тёплый», а именно amber (янтарный), и он не «падает», а spilling – разливается, растекается по мокрым доскам. Глагол spill здесь солирует, потому что задаёт ощущение жидкости, плавности. Нейросеть улавливает такие метафорические глаголы и старательно переносит их в визуальный ряд. А мокрые доски (wet planks) добавляют отражения и блики, которые делают картинку сочнее.
Отдельно стоит упомянуть subtle fog in the background. Слово subtle (лёгкий, едва заметный) – критически важное. Без него Midjourney может завалить всю сцену густым молочным туманом, сквозь который не видно ничего. А с этим модификатором дымка лишь слегка смягчает горизонт и добавляет глубину. Ведь именно в таких мелочах кроется разница между «красиво» и «вау».
Технические параметры на хвосте промпта
Хвостовая часть запроса – это территория технических флагов. Первый из них – —ar 16:9, задающий соотношение сторон. Широкоформатный кадр шестнадцать на девять хорошо подходит для пейзажных и кинематографичных композиций, тогда как для портретов стоит задуматься о 2:3 или даже 9:16. Следующий флаг – —style raw. Появившись в пятой версии, этот параметр снижает «приукрашивание» со стороны модели. Без него Midjourney склонна добавлять избыточный контраст и насыщенность – результат бросается в глаза, но часто выглядит наляпистым. С raw картинка получается сдержаннее, натуральнее.
Ну, а —s 250 – это параметр стилизации (stylize). Шкала идёт от нуля до тысячи. Чем выше значение, тем больше «художественной вольности» берёт на себя нейросеть. При двухстах пятидесяти модель достаточно точно следует промпту, но при этом не лишает картинку авторского почерка. Значение ниже ста даёт почти буквальную иллюстрацию текста – полезно для технических схем, но скучновато для художественных работ. А вот на семистах-восьмистах Midjourney начинает импровизировать так, что от исходного описания может остаться лишь смутное воспоминание.
Чего в этом промпте нет – и это важно
Не менее ценно понять, чего автор сознательно избежал. В промпте нет слова beautiful. Нет amazing. Нет epic. Все эти эмоциональные прилагательные – настоящая ложка дёгтя для точности генерации. Они слишком абстрактны; нейросеть трактует их по-своему, и результат часто напоминает обложку дешёвого фэнтези-романа. Вместо расплывчатых восторгов автор использует weathered, warm amber, subtle – каждое слово привязано к конкретному визуальному эффекту.
Кроме того, в промпте нет негативных указаний через —no. Многие привыкли дописывать —no text, —no watermark, —no extra fingers и так далее. Это тоже рабочий инструмент, однако злоупотреблять им не стоит. Midjourney (особенно версия 6 и новее) гораздо лучше справляется с анатомией, чем её предшественницы, и негативные промпты иногда сбивают модель сильнее, чем помогают. Впрочем, если проблема с лишними пальцами всё-таки всплывёт, добавить —no extra digits можно на этапе доработки.
Как адаптировать этот промпт под свои задачи?
Задача не из лёгких. Ведь слепо менять «рыбака» на «космонавта» и ждать того же эффекта – путь в никуда. Стоит мыслить категориями смысловых блоков, а не отдельных слов. Первый блок – субъект с действием и характерным прилагательным. Второй – локация с указанием времени суток. Третий – стиль съёмки, привязанный к камере или плёнке. Четвёртый – атмосферные детали, описанные через метафоричные глаголы. И пятый – технические параметры в хвосте.
Допустим, нужна картинка с пожилой итальянской женщиной, продающей цветы на рынке. Тогда субъект превращается в an elderly Italian woman arranging fresh flowers at a bustling market stall. Локация – narrow cobblestone street in early morning light. Стиль камеры – shot on Fujifilm Pro 400H, 50mm lens, medium depth of field. Атмосфера – soft golden haze filtering through canvas awnings, dewdrops on petals. И параметры – —ar 4:5 —style raw —s 200. Структура та же, а на выходе – совершенно другой колоритный сюжет.
Распространённые ошибки новичков
Одна из самых частых махинаций с промптами – попытка впихнуть в запрос сразу два сюжета. «Самурай на фоне заката И ведьма в лесу» – подобное сочетание ставит нейросеть в тупик, и результат получается гротескным. Midjourney лучше справляется с одной чёткой сценой, чем с двумя конфликтующими образами. Другая частая ошибка – перечисление цветов через запятую: red, blue, green, yellow, purple tones. Модель не знает, чему отдать приоритет, и в итоге картинка напоминает взрыв на фабрике красок.
Многие также забывают о композиции. Фраза cinematic composition в нашем примере – не пустое украшение. Она подсказывает модели выстроить кадр по правилам третей, добавить направляющие линии и расставить визуальные акценты. Без этого указания Midjourney часто центрирует субъект строго посередине, что выглядит статично и скучно. Да и сам формат кадра (тот самый —ar) новички нередко оставляют по умолчанию, получая квадрат 1:1, который подходит далеко не каждому сюжету.
Версии Midjourney: стоит ли гнаться за новинками?
Буквально пару лет назад Midjourney v4 казалась вершиной генеративного искусства. Сейчас она выглядит как детский рисунок рядом с результатами шестой версии. Эволюция стремительная, и это вносит свои коррективы в составление промптов. В ранних версиях приходилось прописывать highly detailed, 8K resolution, photorealistic – иначе картинка расплывалась в акварельную кашу. В актуальных моделях эти слова уже избыточны: нейросеть и так генерирует детализированные изображения. Более того, добавление 8K или ultra HD иногда приводит к перешарпленности, когда каждая пора на коже превращается в кратер.
Однако с новыми версиями приходят и новые подводные камни. Шестая версия, например, гораздо лучше понимает текст внутри изображения, но при этом может самовольно добавить надписи, если в промпте мелькнёт хоть намёк на типографику. А ещё она тяготеет к более «чистой», журнальной эстетике, что не всегда уместно для грязного уличного реализма. Тем более что каждое обновление слегка меняет «характер» модели, и промпт, идеально работавший в марте, к июлю может выдавать нечто неожиданное.
Несколько слов о негативных промптах и весах
Кроме уже упомянутого флага —no, в арсенале Midjourney есть система весов – ::. Работает она следующим образом: после любого слова или фразы ставятся два двоеточия и число, определяющее «важность» этого фрагмента. Например, Japanese fisherman::2 wooden dock::1 говорит модели, что рыбак вдвое важнее причала. Инструмент мощный, но щепетильный. Перестарался с весами – и фон исчезает полностью, оставляя субъект висящим в пустоте.
Нужно отметить, что отрицательные веса (например, fog::-0.5) действуют иначе, чем —no fog. Отрицательный вес мягче: он не убирает элемент полностью, а лишь ослабляет его присутствие. Это довольно полезно, когда хочется приглушить какую-то деталь, не уничтожая её. На практике же большинству пользователей вполне хватает стандартных флагов без возни с весами. Но для тех, кто стремится к точечному контролю, эта функция – настоящий кладезь возможностей.
Промпт – это черновик, а не приговор
Ни один, даже самый изысканный промпт не гарантирует идеальный результат с первой попытки. Ведь нейросеть – это всё-таки вероятностная модель, а не исполнительный механизм. Из четырёх генераций (а Midjourney выдаёт именно четыре варианта за раз) обычно один-два оказываются близки к задуманному, а остальные – приятные или не очень сюрпризы. И в этом нет ничего страшного. Функция Vary (Subtle) позволяет взять лучший вариант и мягко доработать его, сохранив общую композицию. А Vary (Strong) – пересобрать сцену более радикально, если направление в целом правильное, но деталям не хватает выразительности.
Кстати, функция Pan (расширение кадра) открывает ещё один грандиозный горизонт. Сгенерировав добротный портрет рыбака, можно «расширить» холст влево или вправо – и Midjourney дорисует окружение, сохранив стилистику и освещение. Так из одиночного кадра рождается панорама. И всё это – без единого пикселя ручной работы в Photoshop.
Освоив логику одного хорошего промпта, перенести её на любую другую тему не составит труда. Главное – помнить, что каждое слово в запросе либо работает на результат, либо создаёт шум. Середины тут не бывает. А значит, не стоит перегружать промпт «на всякий случай» – лучше начать с малого, посмотреть на результат и добавлять детали точечно. Удачи в генерации – и пусть каждый четвёртый кадр окажется тем самым шедевром, ради которого всё затевалось.

