В сети сейчас расплодилось столько «гайдов» по нейросетевой генерации картинок, что у неподготовленного человека голова идёт кругом. Одни советуют копировать чужие промпты целиком, другие утверждают, что достаточно написать пару слов — и шедевр готов. А третьи и вовсе продают целые библиотеки запросов за вполне ощутимые деньги, хотя львиная доля этих «сокровищ» устаревает с каждым обновлением модели. Правда же, как водится, лежит где-то посередине: без понимания внутренней логики Midjourney даже самый изысканный набор слов выдаст нечто невразумительное. Но стоит разобраться в нескольких базовых принципах — и результаты начнут радовать уже с первых попыток.
Что вообще такое «хороший промпт»?
Многие грезят о волшебной формуле, которую достаточно вбить один раз — и нейросеть выдаст идеальную картинку. На деле же хороший промпт — это не заклинание, а скорее техническое задание для очень талантливого, но довольно своеобразного художника. Ведь Midjourney не читает ваш запрос так, как его прочитал бы человек. Модель разбирает текст на токены, взвешивает их по степени значимости и сопоставляет с миллиардами образцов из обучающей выборки. Именно поэтому порядок слов, их конкретность и даже пунктуация влияют на финальный результат порой сильнее, чем сама идея. К слову, один и тот же замысел можно описать десятком разных способов — и каждый раз получить совершенно непохожие изображения.
Задача не из лёгких. Ведь нужно одновременно думать о сюжете, стилистике, освещении, композиции и десятке технических параметров. Но именно в этой многослойности и кроется изюминка всего процесса. Опытные пользователи тратят на оттачивание одного промпта по двадцать-тридцать итераций, и это нормальная практика. Не стоит расстраиваться, если первый результат далёк от задуманного — это лишь отправная точка для дальнейшей работы.
Анатомия промпта: из чего он состоит?
Структура добротного запроса к Midjourney тяготеет к определённой логике, хотя жёстких правил тут нет. Начинать стоит с главного объекта — того, что должно солировать на изображении. Скажем, «a lone samurai standing on a cliff» сразу задаёт центральный элемент композиции. Далее следует окружение и атмосфера: «surrounded by cherry blossoms, misty mountain valley below». И уже после этого добавляются стилистические указания — от имени конкретного художника до типа фотографии или эпохи живописи. Венчает всю конструкцию блок технических параметров: соотношение сторон, версия модели, степень стилизации. Такая последовательность — от содержания к форме — работает куда надёжнее, чем хаотичное перечисление всего подряд.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Нужно отметить, что Midjourney присваивает больший вес словам, стоящим в начале промпта. Это связано с тем, как модель обрабатывает входную последовательность токенов: первые элементы получают более сильный «акцент» при генерации. Поэтому самое важное всегда выносят в начало запроса. А вот длинные описательные хвосты, нагромождённые в конце, нейросеть может попросту проигнорировать — особенно если общая длина промпта превышает 60–75 слов.
Стоит ли писать промпты на русском?
Короткий ответ — нет. Midjourney обучена преимущественно на англоязычных текстах и изображениях с англоязычными описаниями. Русскоязычные запросы модель, конечно, понимает (через внутренний перевод), но результат получается заметно беднее. Дело в том, что при автоматическом переводе теряются нюансы, оттенки значений и стилистические маркеры. Слово «уютный» может превратиться в «cozy», а может — в «comfortable», и итоговая картинка окажется совсем другой. Тем более что в английском языке существует масса специфических терминов из фотографии, живописи и кинематографа, которым в русском просто нет точных аналогов. Bokeh, chiaroscuro, golden hour lighting — все эти понятия модель «знает» именно в оригинальном написании. Да и сами разработчики из Midjourney рекомендуют использовать английский для получения наилучших результатов.
Конкретика вместо абстракций
Вот где всплывают главные ошибки новичков. Человек пишет «beautiful landscape» и ждёт чего-то потрясающего. А нейросеть выдаёт нечто усреднённое, невнятное — потому что слово «beautiful» для неё практически пустое. Оно не несёт визуальной информации. Красивый пейзаж — это какой именно? Горное озеро на рассвете с туманной дымкой над водой? Или бескрайнее пшеничное поле под грозовым небом? Вся суть в том, что Midjourney нуждается в зрительных ориентирах, а не в оценочных суждениях.
Вместо расплывчатых прилагательных стоит использовать конкретные существительные и точные описания. Не «a nice room», а «a sunlit Scandinavian living room with pale oak floors, linen curtains, a wool throw on a mid-century sofa». Разница колоссальная. Каждое слово в таком промпте — это кирпичик, из которого нейросеть выстраивает визуальный образ. И чем точнее подобраны эти кирпичики, тем ближе результат к замыслу. Впрочем, перебарщивать тоже не стоит: промпт из ста слов превращается в кашу, где модель не может расставить приоритеты.
Магия стилистических отсылок
Кладезь возможностей открывается, когда в промпт добавляют имена конкретных художников, фотографов, режиссёров или целых художественных направлений. Midjourney прекрасно «знает» стиль Альфонса Мухи, Хаяо Миядзаки, Грега Рутковски, Эдварда Хоппера — и десятков других творцов. Написав «in the style of Alphonse Mucha», вы мгновенно получите характерные плавные линии, цветочные орнаменты и приглушённую пастельную палитру. А вот «in the style of Zdzisław Beksiński» погрузит изображение в мрачный сюрреализм с органическими формами и тревожной атмосферой.
Но есть нюанс. Не стоит сваливать в один промпт пять-шесть разных стилистических отсылок — модель начнёт «метаться» между ними, и в итоге получится нечто эклектичное, лишённое характера. Довольно часто хватает одного-двух имён или направлений. Кстати, помимо имён художников можно указывать конкретные техники: «watercolor on wet paper», «linocut print», «oil impasto on canvas». Каждое такое уточнение добавляет текстуру и глубину. И всё-таки самобытный стиль рождается именно на пересечении нескольких неочевидных референсов — когда, скажем, японскую гравюру укиё-э смешивают с эстетикой киберпанка.
Как работать с освещением и камерой?
Освещение в промпте творит чудеса. Это тот параметр, который львиная доля начинающих пользователей просто игнорирует — а зря. Именно свет задаёт настроение, драматургию и эмоциональный тон изображения. Между «harsh midday sun» и «soft diffused overcast light» — пропасть размером с целый художественный мир. Стоит попробовать «golden hour backlight», «neon glow from below», «candlelit», «bioluminescent» — и один и тот же сюжет заиграет совершенно по-разному. К тому же указание типа освещения помогает модели точнее определить тени, отражения и контраст.
С «камерой» дело обстоит ещё интереснее. Midjourney откликается на фотографические термины так, словно ей дали в руки настоящий объектив. Написав «shot on Canon EOS R5, 85mm f/1.2», вы получите характерное боке и малую глубину резкости. А «wide-angle 14mm lens, deep depth of field» выдаст грандиозный панорамный кадр с резкостью от переднего плана до горизонта. Отдельно стоит упомянуть ракурсы: «bird’s eye view», «low angle shot», «Dutch tilt», «extreme close-up» — каждый из этих приёмов кардинально меняет восприятие сцены. Ну и, конечно же, не стоит забывать про «macro photography» — для мелких объектов этот параметр буквально спасательный круг.
Параметры, которые меняют всё
За двойным тире в конце промпта скрывается арсенал настроек, недооценивать который — себе дороже. Самый очевидный параметр — —ar (aspect ratio). По умолчанию Midjourney генерирует квадратное изображение 1:1, но для пейзажей куда лучше подойдёт 16:9 или даже 21:9, а для портретов — 2:3 или 9:16. Казалось бы, мелочь, однако соотношение сторон влияет на композицию куда сильнее, чем может показаться: горизонтальный формат «вытягивает» пространство, вертикальный — усиливает ощущение высоты и монументальности.
Следующий важный инструмент — параметр —stylize (или сокращённо —s). Его значение варьируется от нуля до тысячи. При низких значениях (скажем, 50–100) модель строже следует тексту промпта, почти буквально. При высоких — позволяет себе больше художественной вольности, добавляет декоративности и «красивости». Для коммерческих задач, где точность критична, разумнее держать stylize на отметке 100–250. А для свободных экспериментов — 750 и выше. К слову, с появлением шестой версии модели (и особенно v6.1) это стало ещё заметнее: высокий stylize теперь добавляет куда более изысканные детали, чем раньше.
Ну, а параметр —chaos отвечает за разнообразие результатов в сетке из четырёх превью. При нулевом значении все четыре изображения будут довольно похожими. При chaos 100 — максимально непредсказуемыми. Это полезно на ранней стадии, когда вы только нащупываете направление и хотите увидеть побольше вариантов. Впрочем, на финальном этапе хаос лучше убрать, чтобы модель сосредоточилась на одном конкретном решении.
Негативные промпты и весовые коэффициенты
Удивительная штука: иногда сказать нейросети, чего не нужно, важнее, чем описать желаемое. Для этого в Midjourney существует параметр —no. Написав «—no text, watermark, blurry, extra fingers», вы резко повысите шансы получить чистое изображение без типичных артефактов. Особенно это актуально для портретов, где модель до сих пор иногда «грешит» лишними пальцами или размытыми чертами лица. Да и нежелательные текстовые надписи, которые Midjourney любит щедро разбрасывать по картинке, через —no text убираются куда эффективнее, чем через добавление фразы «without text» в тело промпта.
Весовые коэффициенты — ещё один мощный инструмент тонкой настройки. Синтаксис простой: после нужного слова или фразы ставится двойное двоеточие и число. Например, «forest::2 castle::1» заставит модель уделить лесу вдвое больше внимания, чем замку. А отрицательные веса (скажем, «forest::2 castle::-0.5») работают как мягкий аналог —no, приглушая нежелательный элемент, но не убирая его полностью. На самом деле именно через весовые коэффициенты опытные пользователи добиваются того самого «авторского» результата, когда картинка выглядит не как случайная генерация, а как осознанный художественный выбор.
Мультипромпты и разделение концепций
Классическая проблема. Вы пишете «hot dog» — и получаете то ли сосиску в булке, то ли разгорячённого пса. Midjourney не всегда различает составные понятия так, как это сделал бы человек. Вот тут и приходят на помощь мультипромпты — та же техника двойного двоеточия, но без числовых значений. Запись «hot:: dog» разделит два слова на независимые концепции, и модель нарисует горячую собаку (в буквальном смысле). А «hot dog» без разделителя скорее выдаст фастфуд. Этот приём бесценен, когда нужно совместить два понятия, которые обычно склеиваются в устойчивое выражение.
Как использовать референсные изображения?
Текст — мощный инструмент, но иногда картинка стоит тысячи слов. Буквально. Midjourney позволяет загрузить изображение-референс, добавив его URL в начало промпта. Модель проанализирует цветовую палитру, композицию, настроение и стиль загруженной картинки — и постарается перенести их на новую генерацию. Параметр —iw (image weight) регулирует степень влияния референса: при значении 0.5 текстовый промпт доминирует, при 2.0 — изображение-образец перетягивает одеяло на себя. Довольно часто оптимальным оказывается значение в диапазоне 0.75–1.25, когда референс задаёт общее направление, но текст сохраняет контроль над деталями.
Кстати, существует ещё один неочевидный приём — —sref (style reference). Появился он относительно недавно и позволяет «зафиксировать» стиль одного изображения, чтобы применять его к совершенно разным сюжетам. Это настоящий спасательный круг для тех, кто строит визуальный бренд или серию иллюстраций в едином колоритном стиле. Загрузил один удачный кадр в качестве sref — и дальше генерируешь хоть портреты, хоть пейзажи, хоть натюрморты с тем же «почерком».
Распространённые ошибки и подводные камни
Одна из самых частых ловушек — перегрузка промпта. Человек, впечатлённый возможностями, начинает добавлять всё подряд: и стиль, и освещение, и камеру, и текстуру, и материал, и эмоцию, и цвет, и эпоху — и получает визуальный хаос. Midjourney, столкнувшись с избытком противоречивых указаний, просто усредняет всё, и на выходе — невнятная каша без характера. Здесь работает правило, знакомое любому дизайнеру: меньше — это больше. Не стоит тащить в один промпт больше 40–50 слов, а каждое из них должно нести конкретную визуальную нагрузку.
Вторая ошибка — слепое копирование чужих промптов. В сети их тысячи, и некоторые действительно дают впечатляющие результаты. Но дело в том, что Midjourney — система недетерминированная: один и тот же промпт у двух разных пользователей (да и у одного пользователя в разное время) выдаст разные картинки. К тому же многие «вирусные» промпты были написаны для четвёртой или пятой версии модели, а в шестой алгоритм интерпретации текста изменился довольно существенно. Так что чужие промпты лучше использовать как отправную точку для собственных экспериментов, а не как готовый рецепт.
Ну и, наконец, третий подводный камень — игнорирование итераций. Многие считают, что промпт должен «выстрелить» с первого раза. На самом деле профессиональный рабочий процесс выглядит иначе: сначала грубый набросок (простой промпт, высокий chaos), затем выбор перспективного направления, потом постепенное уточнение деталей через vary, upscale, добавление новых параметров и удаление лишних. Скрупулёзный подход к итерациям — вот что отличает случайный результат от осознанного произведения.
Формулы промптов, которые работают
Существует несколько проверенных «скелетов», на которые можно нанизывать любой сюжет. Один из самых популярных выглядит так: [Субъект] + [Действие/Поза] + [Окружение] + [Стиль/Художник] + [Освещение] + [Камера/Ракурс] + [Параметры]. Например: «an elderly fisherman mending nets on a weathered wooden pier, Mediterranean coastal village at dawn, painted in the style of Joaquín Sorolla, warm golden light, shot from a low angle with a 35mm lens —ar 16:9 —s 250». Каждый элемент этой цепочки выполняет свою функцию, и ни один не перекрывает другой.
Другой добротный шаблон тяготеет к кинематографической эстетике: [Кадр из фильма] + [Жанр] + [Атмосфера] + [Техника съёмки]. Скажем: «cinematic still from a 1970s psychological thriller, a dimly lit hotel corridor stretching into darkness, anamorphic lens flare, 35mm Kodak film grain, directed by Stanley Kubrick —ar 21:9 —s 500». Такой промпт мгновенно погружает в определённый визуальный антураж, и модель реагирует на него очень точно — ведь кинематографических референсов в её обучающей выборке огромное количество.
Что насчёт версий модели?
Midjourney за свою недолгую историю прошла внушительный путь от довольно примитивных генераций первой версии (2022 год) до фотореалистичных изображений в v6.1. С каждым обновлением менялась не только картинка, но и логика понимания промптов. В пятой версии модель лучше реагировала на короткие ёмкие фразы, а длинные описания нередко «плыли». Шестая же версия научилась работать с более сложным синтаксисом и даже с отдельными элементами контекста. Стоит отметить, что в v6 наконец-то стал приемлемо работать рендеринг текста внутри изображений — раньше с этим было совсем туго.
Буквально пару лет назад сгенерировать реалистичные руки с правильным количеством пальцев считалось почти чудом. Сейчас же v6.1 справляется с этим в большинстве случаев. Однако слабые места остаются: сложные многофигурные композиции, мелкий текст, зеркальные отражения и точное соблюдение пространственных отношений (типа «объект А находится слева от объекта Б») по-прежнему даются модели с трудом. Так что щепетильным перфекционистам стоит закладывать время на постобработку — хотя бы в Photoshop или Canva.
Секрет, о котором мало кто говорит
Эмоция. Вот что по-настоящему отделяет посредственный промпт от грандиозного. Можно идеально выстроить структуру, указать камеру, свет, стиль — и получить технически безупречную, но абсолютно мёртвую картинку. А можно добавить одно-два слова вроде «melancholic», «haunting», «joyful chaos», «quiet solitude» — и изображение вдруг обретает душу. Дело в том, что Midjourney обучена на произведениях искусства, каждое из которых несёт в себе эмоциональный заряд. И когда вы указываете настроение напрямую, модель «вспоминает» соответствующие визуальные паттерны — цветовые схемы, позы, выражения лиц, даже характер мазков.
Безусловно, это не гарантия. Но разница между промптом «a woman in a garden» и «a woman in a garden, bittersweet nostalgia, fading afternoon light» — как между фотографией на документы и портретом кисти Вермеера. Эмоциональные маркеры — тот самый ингредиент, который превращает генерацию в искусство. Или, по крайней мере, приближает к нему.
Каждый новый промпт — это маленький эксперимент, и в этом вся прелесть работы с Midjourney. Не стоит бояться ошибок: неудачная генерация порой подсказывает направление, о котором вы даже не задумывались. Пробуйте смешивать несовместимое, добавляйте неожиданные стилевые отсылки, играйте с параметрами — и рано или поздно ваш собственный «рецепт» идеального промпта сложится сам собой. Удачи в творческих поисках — пусть каждая сгенерированная картинка приносит и удовольствие, и новый опыт.

