Правильное описание изображения для промта в Midjourney: пошаговое руководство

Нейросети для генерации картинок уже давно перестали быть игрушкой для энтузиастов — ими пользуются дизайнеры, маркетологи, блогеры и даже архитекторы. Midjourney среди подобных инструментов занимает особое место, ведь именно эта модель славится впечатляющей «художественностью» результата. Но вот парадокс: львиная доля пользователей жалуется, что нейросеть выдаёт совсем не то, что рисовалось в голове. Руки опускаются, мотивация падает, а виноват, как правило, не алгоритм, а промт — то самое текстовое описание, которое человек вбивает в строку запроса. И дело тут не в лени или глупости, а в непонимании того, как именно машина «читает» слова. Поэтому перед очередной попыткой стоит разобраться в анатомии грамотного промта — разложить по полочкам каждый его элемент.

Почему нейросеть «не понимает» с первого раза?

Распространённое заблуждение звучит примерно так: «Я же написал всё понятно, почему картинка кривая?» На самом деле Midjourney не понимает контекст так, как понимает его собеседник за чашкой кофе. Алгоритм разбирает промт на токены — отдельные смысловые единицы — и взвешивает каждый из них. Чем ближе слово стоит к началу строки, тем больший вес оно получает. Это связано с тем, что архитектура модели опирается на механизм внимания (attention), где приоритет отдаётся первым элементам последовательности. К слову, Midjourney пятой версии обрабатывает промт куда тоньше, чем ранние итерации, — но даже ей нужна чёткая структура. А без неё результат напоминает лотерею: иногда везёт, но чаще — нет.

Ещё один подводный камень — многозначность. Английское слово «bat» для нейросети может оказаться и летучей мышью, и бейсбольной битой. Аналогичные ловушки подстерегают и тех, кто пишет промты на русском через автоперевод. Ведь машинный перевод нередко теряет нюансы, и нейросеть получает совсем не тот смысл, который закладывал автор. Поэтому опытные пользователи предпочитают составлять описания на английском вручную, даже если владеют языком на среднем уровне. Довольно простой выход — держать под рукой словарь конкретных, а не абстрактных терминов.

Скелет промта: из чего он состоит?

Хороший промт — не хаотичный набор красивых слов. Это конструкция с внутренней логикой. Начать нужно с главного субъекта: кто или что изображено на картинке. Будь то портрет пожилого рыбака, заброшенный маяк на скалистом берегу или фантастический дракон, парящий над вулканом — первые слова промта задают «якорь», вокруг которого нейросеть выстраивает всё остальное. И чем конкретнее этот якорь, тем точнее попадание.

Все лучшие нейросети мира теперь в твоём кармане! ⚡

Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.

Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL

Далее следует окружение и сеттинг. Midjourney довольно чутко реагирует на описание среды: «тропический лес на рассвете» и «тропический лес в грозу» дадут разительно отличающиеся результаты. После сеттинга идёт стиль — и тут кладезь возможностей просто огромен. Можно сослаться на конкретного художника (скажем, «in the style of Moebius» или «reminiscent of Alphonse Mucha»), а можно указать направление в искусстве целиком: импрессионизм, киберпанк, ар-деко. Нужно отметить, что нейросеть не копирует стиль один в один, а скорее тяготеет к определённой эстетике. Ну и, наконец, замыкают конструкцию технические параметры — соотношение сторон, версия модели, степень «хаоса» и стилизации. Впрочем, о каждом из этих элементов стоит поговорить подробнее.

Как описать субъект: конкретика вместо абстракций

Размытые формулировки — главный враг. Вместо «красивая девушка» опытный промтер напишет что-нибудь вроде «young woman with freckles, auburn hair braided loosely, wearing a linen blouse, looking slightly over her shoulder». Разница колоссальная. В первом случае нейросеть генерирует усреднённый, довольно безликий образ. Во втором — появляются текстура, характер, настроение. Дело в том, что каждая деталь сужает пространство интерпретаций, и алгоритму не приходится «додумывать» за автора.

Отдельно стоит упомянуть позы и эмоции. Midjourney пока не идеально справляется со сложными положениями тела, но грамотное описание сильно помогает. Фраза «sitting cross-legged on a wooden pier» работает куда лучше, чем просто «sitting». А указание эмоции — «with a melancholic gaze» или «laughing with eyes closed» — добавляет картинке ту самую изюминку, которая отличает выразительный портрет от безжизненной куклы. Да и самому результату это придаёт глубину, которую сложно получить иначе.

Стоит ли указывать стиль и художника?

Безусловно. Именно стилистическая привязка превращает обычную картинку в нечто цепляющее. Но тут есть нюанс. Многие новички пихают в один промт сразу пять-шесть имён: «in the style of Greg Rutkowski, Artgerm, Beeple, James Jean, and Studio Ghibli». Зрелище получается неоднозначное. Нейросеть пытается усреднить совершенно разные эстетики, и на выходе — каша. Гораздо разумнее ограничиться одним-двумя ориентирами, которые органично сочетаются друг с другом.

Кстати, помимо конкретных художников отлично работают упоминания техник и медиумов. «Oil painting on rough canvas», «watercolor sketch with visible pencil lines», «digital matte painting» — каждая такая пометка задаёт не только визуальный стиль, но и фактуру. Холст масляной картины и гладкая поверхность цифровой иллюстрации воспринимаются зрителем принципиально по-разному. К тому же технические указания помогают нейросети «определиться» с палитрой, контрастностью и детализацией, не дожидаясь дополнительных параметров.

Освещение и цветовая палитра

Недооценённый элемент. Львиная доля промтов вообще не содержит упоминаний света, и зря — ведь именно освещение задаёт атмосферу. Буквально пара слов способна перевернуть настроение картинки. «Golden hour light» создаёт тёплую, ностальгическую атмосферу, «harsh overhead lighting» — тревожную и драматичную, а «bioluminescent glow in a dark cave» уносит зрителя в мир фэнтези. Стоит задуматься об источнике света ещё до того, как пальцы коснутся клавиатуры.

С цветом дело обстоит похожим образом. Можно ограничиться общими указаниями вроде «muted earth tones» или «vibrant neon palette», а можно конкретизировать до отдельных оттенков: «deep teal and burnt sienna accents». Midjourney воспринимает и то, и другое, но конкретные цвета дают более предсказуемый результат. Впрочем, не стоит перебарщивать: три-четыре цветовых акцента — разумный максимум. Иначе промт превращается в раскраску, а нейросеть — в исполнителя, который не знает, за что хвататься.

Что насчёт технических параметров?

Это та часть, которая пугает новичков, но на практике осваивается за один вечер. Первый и самый очевидный параметр — —ar (aspect ratio), соотношение сторон. Квадратный формат (1:1) хорош для аватарок и иконок, «—ar 16:9» — для обоев и баннеров, «—ar 9:16» — для сторис и вертикальных постеров. Само собой, формат стоит выбирать исходя из конечной задачи, а не наугад.

Следующий важный критерий — параметр —stylize (сокращённо —s). Его значение колеблется от 0 до 1000 и определяет, насколько «художественно» нейросеть интерпретирует запрос. При низких значениях (около 50–100) Midjourney буквально следует тексту, при высоких — позволяет себе творческие вольности. Для фотореалистичных промтов разумнее выставлять значение пониже, а для арт-концептов — поднять до 500–750. Ну, а параметр —chaos (от 0 до 100) отвечает за вариативность сгенерированных вариантов в одной сетке. Высокий хаос — это когда четыре миниатюры выглядят совершенно по-разному. Полезно на этапе поиска идеи, но для финальной генерации лучше снизить до 10–20.

Негативный промт и исключения

Задача не из лёгких. Многие об этом забывают, но Midjourney умеет «вычитать» нежелательные элементы. Для этого используется параметр —no, после которого перечисляются слова-исключения. Допустим, генерируется пейзаж, и каждый раз в кадре появляются люди. Добавление «—no people, crowds» решает проблему в большинстве случаев. Однако стоит оговориться: механизм не работает на все сто процентов. Иногда нейросеть всё равно «протаскивает» исключённый элемент, особенно если он логически связан с остальными частями промта.

На самом деле эффективнее не исключать нежелательное, а максимально подробно описывать желаемое. Это как в разговоре с художником: фраза «нарисуй пейзаж без людей» менее конструктивна, чем «нарисуй безлюдный горный перевал ранним утром, когда туман ещё стелется по долине». Второе описание просто не оставляет места для толпы. Ведь чем плотнее смысловое поле промта, тем меньше пространства остаётся для случайных артефактов.

Порядок слов в промте: имеет ли значение?

Ещё как. Многие считают, что порядок слов в промте не играет роли, но на самом деле это один из самых щепетильных моментов. Midjourney обрабатывает токены последовательно, и те, что стоят ближе к началу, получают больший «вес». Если написать «a dark forest with a glowing fairy», акцент сместится на лес. А если переставить — «a glowing fairy in a dark forest» — солирует уже фея. Тот же принцип работает и со стилистическими указаниями: то, что упомянуто раньше, влияет на результат сильнее.

Из этого следует добротное практическое правило: в первую треть промта помещается главный субъект и его описание, во вторую — среда и атмосфера, в третью — стиль и технические параметры. Разумеется, это не жёсткий закон, а скорее рабочая схема. Иногда стоит нарушить порядок ради эксперимента. Но для начала, пока рука не набита, такая структура творит чудеса.

Длинный промт или короткий: что работает лучше?

Тут нет универсального ответа, но тенденция прослеживается. Слишком короткие промты (два-три слова) дают красивые, но непредсказуемые результаты. Нейросеть заполняет пустоту собственными «фантазиями», и контроль над картинкой теряется. Слишком длинные промты (больше 60–70 слов) тоже проблематичны: внимание модели «размазывается», периферийные элементы начинают конкурировать с центральными, и результат выглядит перегруженным.

Золотая середина — где-то между 25 и 50 словами. Этого хватает, чтобы описать субъект, среду, стиль и пару технических деталей, не превращая промт в сочинение. К слову, довольно часто встречается ошибка «синонимического нагромождения»: автор пишет «beautiful, gorgeous, stunning, breathtaking landscape», наивно полагая, что четыре эпитета усилят эффект в четыре раза. На деле нейросеть просто «схлопывает» их в один сигнал, а ценное пространство промта оказывается потрачено впустую. Лучше вместо трёх прилагательных добавить одно конкретное существительное — толку будет больше.

Итерация и «допиливание» результата

Первая генерация редко совпадает с идеалом. И это нормально. Профессиональные промтеры тратят на одну финальную картинку от пяти до двадцати итераций. Сначала запускается «черновой» промт с высоким хаосом, чтобы оценить направление. Потом отбирается самый перспективный вариант, и к нему применяется апскейл. Дальше — доработка: уточнение деталей, смена ракурса через «—no» и дополнительные слова, игра с параметром стилизации.

Отдельно стоит упомянуть функцию remix mode, которая позволяет изменить промт прямо во время вариации уже сгенерированного изображения. Это спасательный круг для ситуаций, когда композиция нравится, а вот цветовая гамма или детали — нет. Включается он командой «/prefer remix», после чего при каждом нажатии кнопки «Vary» появляется окно редактирования промта. Тем более что в пятой и шестой версиях модели ремикс работает куда стабильнее, чем в ранних итерациях.

Частые ошибки новичков

Первая и самая грубая — использование абстрактных понятий в качестве основы промта. «Счастье», «тоска», «свобода» — красиво звучит, но нейросети нужен визуальный якорь. Без него результат скатывается в банальные стоковые клише: воздетые руки на фоне заката или одинокая фигура у окна. Если хочется передать эмоцию, лучше описать конкретную сцену, которая эту эмоцию вызывает. «An elderly couple dancing alone in an empty ballroom, soft dust particles in the sunlight» скажет о счастье куда больше, чем слово «happiness».

Вторая ошибка — игнорирование камеры и ракурса. А ведь это мощнейший инструмент. «Close-up portrait», «wide-angle establishing shot», «bird’s-eye view», «shot from below» — каждая такая приписка меняет восприятие кардинально. Портрет, снятый снизу, выглядит величественно, а сверху — хрупко и уязвимо. Тем более что Midjourney довольно точно воспроизводит фотографические термины, включая конкретные объективы (например, «shot on 85mm f/1.4 lens» даёт характерное боке на заднем плане). Не стоит забывать и про глубину резкости — «shallow depth of field» или «tilt-shift effect» способны добавить тот самый кинематографический антураж, о котором грезят многие пользователи.

Промт для фотореализма и промт для арта: в чём разница?

Подход к двум этим направлениям различается принципиально. Фотореалистичный промт тяготеет к терминологии из мира фотографии: указание типа камеры (Canon EOS R5, Hasselblad), объектива, ISO, диафрагмы, типа плёнки (Kodak Portra 400, Fujifilm Velvia). Всё это нейросеть «распознаёт» и воспроизводит соответствующие визуальные признаки — зернистость, цветопередачу, характер боке. А вот для арт-направления подобные указания бесполезны и даже вредны.

Арт-промт строится на отсылках к стилям, эпохам и художникам. «Art nouveau poster», «Soviet constructivism propaganda style», «Japanese ukiyo-e woodblock print» — каждое из таких указаний задаёт мощный визуальный вектор. И стоит отметить: чем более нишевая отсылка, тем самобытнее результат. Общеизвестные стили (вроде «anime» или «pixel art») Midjourney отрабатывает уверенно, но и выдаёт довольно предсказуемые решения. А вот «Zdzisław Beksiński nightmare surrealism» или «Chris Foss retro sci-fi book cover» — это уже совсем другой уровень. Колоритный, атмосферный, цепляющий.

Как работать с весами слов?

Продвинутый инструмент, о котором знают не все. Midjourney позволяет назначать отдельным элементам промта числовой вес через два двоеточия. Выглядит это так: «sunset::2 ocean::1 sailboat::0.5». В этом примере закат получает двойной приоритет, океан — стандартный, а парусник отходит на дальний план. Максимальное допустимое значение зависит от версии модели, но обычно диапазон — от минус одного до трёх.

На практике веса особенно выручают, когда нужно совместить два конфликтующих элемента. Скажем, «robot::2 garden::1» даст робота в саду, где доминирует именно робот. Без весов нейросеть могла бы «утопить» его среди цветов. Но и тут есть ложка дёгтя: чрезмерное увлечение весами делает промт нечитаемым и сложным в отладке. Да и результат не всегда пропорционален ожиданиям — разница между «::1» и «::1.5» порой заметна лишь на уровне тонких нюансов.

Мультипромт и разделение концепций

Двойное двоеточие без цифр работает как разделитель концепций. Это критически важно, когда слова в промте могут слиться в одно понятие. Классический пример — «hot dog». Без разделителя нейросеть сгенерирует хот-дог, то есть сосиску в булке. А вот «hot:: dog» — это уже разгорячённый пёс, возможно, бегущий по пляжу. Разница — принципиальная.

Мультипромт помогает и в более сложных ситуациях. Допустим, хочется совместить несовместимое: «японский храм» и «киберпанк-город». Запись «Japanese temple:: cyberpunk city::» заставляет нейросеть воспринимать эти элементы как два отдельных слоя, которые нужно наложить друг на друга, а не смешивать в кашу. Результат бывает грандиозный — такие композиции приковывают внимание и запоминаются надолго.

Промт в Midjourney — это не заклинание и не программный код, а скорее лаконичное письмо художнику, который очень талантлив, но буквально понимает каждое слово. Навык составления хороших промтов нарабатывается практикой, а не чтением теории. Поэтому после прочтения стоит открыть Discord, вбить свой первый осознанный промт и посмотреть, что получится. Потом — подкрутить, переставить слова, поменять стиль. И снова запустить. Удачи в этом увлекательном процессе — результаты вас точно порадуют.