Ещё пару лет назад нейросети, рисующие картинки по текстовому описанию, казались забавной игрушкой для гиков — чем-то вроде калейдоскопа, который выдаёт причудливые, но бесполезные узоры. Сегодня же львиная доля дизайнеров, маркетологов и просто творческих людей генерирует изображения в Midjourney на потоке, а качество отдельных работ приковывает внимание даже скептиков. Но вот парадокс: инструмент один и тот же, а результаты у всех разные. Кто-то получает фотореалистичный портрет, от которого мурашки по коже, а кто-то — размытое нечто с шестью пальцами. Дело в том, что между «красиво» и «кошмарно» стоит всего одна вещь — грамотно составленный текстовый запрос, он же промт. А значит, стоит разобраться, как именно разговаривать с нейросетью, чтобы она отвечала шедеврами.
Что такое промт и почему от него зависит всё
Промт в контексте Midjourney — это текстовая инструкция, которую пользователь вводит после команды /imagine. По сути, короткое описание на английском языке, из которого алгоритм «вычитывает» настроение, стиль, композицию и десятки других параметров будущей картинки. Казалось бы, что тут сложного? Написал «красивый закат над морем» — и готово. Однако на практике нейросеть тяготеет к усреднению: без конкретных указаний она выдаст что-то довольно банальное, вроде стокового снимка из бесплатной фотобиблиотеки. Вся суть в том, что Midjourney не читает мысли — она читает слова. И каждое слово для неё имеет вес. Чем точнее и богаче описание, тем ближе результат к тому образу, который сложился в голове автора. Промт — это не просьба, а скорее рецепт. Пропустил ингредиент — получил совсем другое блюдо.
Анатомия идеального запроса
С чего начинается хороший промт? С понимания его структуры. И хотя жёстких правил Midjourney не навязывает, опытные пользователи давно вывели рабочую формулу, которая творит чудеса. Первым в строке идёт основной объект — то, что должно солировать на изображении. Следом — описание среды и антуража, то есть где именно этот объект находится, каким светом залит, какая атмосфера вокруг. Далее следует стиль: хочется ли вам фотореализма, акварели, пиксельной графики или, скажем, эстетики журнала Vogue восьмидесятых. Ну и, наконец, — технические параметры, о которых чуть ниже. Нужно отметить, что порядок слов действительно влияет на результат: то, что стоит в начале промта, нейросеть «слышит» громче. Поэтому ставить на первое место стоит самое важное.
Разберём на примере. Промт «a lonely lighthouse on a cliff, stormy ocean, dramatic sunset, oil painting style, moody atmosphere» выдаст нечто совсем иное, нежели просто «lighthouse». В первом случае алгоритм получает кладезь информации: одинокий маяк (не группу зданий), утёс (не пляж), бушующий океан (не штиль), драматичный закат (не полдень), манера масляной живописи и мрачноватое настроение. Каждое слово здесь — отдельный рычаг. Уберёшь «stormy» — и океан успокоится. Заменишь «oil painting» на «photograph» — и вместо холста появится кадр. Это довольно увлекательная механика, но она требует скрупулёзного подхода.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Стоит ли писать длинные промты?
Неоднозначный вопрос. Многие считают, что чем длиннее запрос, тем лучше результат, но на самом деле зависимость нелинейная. Midjourney способна обработать промт длиной до шестидесяти слов (в версии 6 и выше), однако перегруженное описание нередко сбивает алгоритм с толку. Ведь каждое новое существительное — это потенциальный объект, которому нейросеть попытается найти место на холсте. Впихнёшь в одну строку замок, дракона, рыцаря, фею, водопад, радугу и единорога — получишь хаотичную мешанину, где ни один элемент толком не прорисован. Золотая середина — от пятнадцати до тридцати пяти слов. Этого хватает, чтобы передать и сюжет, и настроение, и стилистику, при этом не превращая промт в роман.
Впрочем, короткие промты тоже имеют право на жизнь. Иногда двух-трёх слов достаточно, чтобы получить неожиданно мощный результат. Это связано с тем, что у Midjourney есть собственная «насмотренность» — огромный массив данных, на которых она обучена. Когда промт лаконичен, алгоритм сам заполняет пробелы, опираясь на самые популярные визуальные ассоциации. Результат бывает блестящим, бывает посредственным. Но для экспериментов — самое то.
Магия стилевых указаний
Вот где начинается настоящее волшебство. Одна и та же сцена в стиле Хаяо Миядзаки и в стиле Ганса Гигера — это два абсолютно разных мира. Midjourney прекрасно распознаёт имена художников, фотографов, архитекторов и даже кинорежиссёров. Достаточно добавить в конце промта «in the style of [Имя]», и нейросеть сместит палитру, текстуры и композицию в нужном направлении. К слову, необязательно ограничиваться одним именем — допустимо смешивать влияния, прописывая, например, «a blend of Moebius and Syd Mead». Результат получается самобытный, порой — грандиозный. Но и подводные камни тут имеются: не все имена алгоритм «знает» одинаково хорошо. Малоизвестный иллюстратор может просто проигнорироваться, а вот Рембрандт, Дали или Уэс Андерсон отработают на ура.
Стилевые подсказки не ограничиваются именами. Довольно мощный эффект дают указания на технику исполнения: «watercolor on textured paper», «charcoal sketch», «35mm film photography», «cyberpunk neon aesthetic». Тем более, что комбинировать их можно почти бесконечно. А если добавить ещё и эпоху — «1920s art deco poster» или «80s VHS screenshot» — картинка обретёт совершенно конкретный исторический колорит. Буквально десятилетие назад о таком можно было только грезить, но сейчас всё это доступно за считанные секунды.
Технические параметры: нюансы, которые решают
Детали решают. Помимо описательной части, у Midjourney есть набор так называемых «флагов» — параметров, которые дописываются в конце промта через двойное тире. Один из самых популярных — —ar (aspect ratio), задающий соотношение сторон изображения. Стандартно нейросеть генерирует квадрат 1:1, но для обложки блога куда лучше подойдёт 16:9, а для Pinterest-пина — 2:3. Следующий важный параметр — —v, определяющий версию модели. На момент написания статьи актуальна шестая версия, выдающая заметно более детализированные и реалистичные результаты по сравнению с пятой. Отдельно стоит упомянуть —s (stylize): чем выше значение (от нуля до тысячи), тем больше «художественной вольности» нейросеть себе позволяет, отступая от буквального прочтения промта ради эстетики.
Ну, а ещё есть —c (chaos). Звучит пугающе, но на деле это контроль вариативности. При нулевом значении все четыре картинки в сетке будут похожи друг на друга. При ста — каждая окажется из совершенно иной вселенной. Для коммерческих задач хаос лучше держать в районе десяти-двадцати, а для творческих поисков можно смело выкрутить на пятьдесят и выше. Кстати, параметр —no работает как «негативный промт»: прописав «—no text, watermark, blurry», вы говорите нейросети, чего на изображении быть не должно. Особенно это выручает, когда Midjourney упорно пририсовывает к фотографии надписи или логотипы — неприятность довольно частая.
Как описывать свет и цвет
Свет. Именно он на восемьдесят процентов определяет атмосферу изображения, и Midjourney это прекрасно понимает. Стоит только добавить в промт «golden hour lighting», как сцена заливается тёплым медовым сиянием. А «harsh overhead light» создаст резкие тени, характерные для полуденного солнца. Отдельно приковывает внимание работа алгоритма с искусственным светом: неоновые вывески, свечи, экран ноутбука в темноте — всё это нейросеть воспроизводит на удивление точно. Но есть и ложка дёгтя: если прописать два конфликтующих источника света (например, «moonlight» и «bright sunny day» одновременно), результат выйдет неестественным. Нейросеть попытается совместить несовместимое, и картинка потеряет реалистичность.
С цветом дело обстоит проще. Достаточно указать доминирующую палитру словами вроде «muted earth tones», «vibrant saturated colors», «monochrome blue» или «pastel pink and lavender». Нейросеть подхватывает цветовую гамму и распределяет её по всему изображению. Тем более, что существуют и более тонкие конструкции: например, «color grading like a Wes Anderson film» мгновенно задаст симметричную пастельную эстетику, узнаваемую с первого взгляда. Не стоит перебарщивать с количеством цветовых указаний — двух-трёх вполне хватит. Иначе нейросеть начнёт «распыляться», и палитра станет грязной.
Частые ошибки новичков
Задача не из лёгких — написать первый промт и сразу получить шедевр. Вероятность этого примерно такая же, как сесть за руль впервые и сразу выиграть гонку. Одна из типичных ошибок — абстрактные описания. Слово «красивый» для нейросети ничего не значит, потому что понятие красоты у неё отсутствует. Зато «symmetrical face, clear skin, soft bokeh background» — это конкретный набор инструкций, с которым алгоритм работает отлично. Другая распространённая проблема — перечисление десятка объектов в одном промте. Нейросеть пытается уместить всё, и сцена превращается в свалку. Да и сами объекты прорисовываются хуже, потому что «внимание» модели размазывается.
Ещё одна ловушка — игнорирование порядка слов. Как уже говорилось, первые слова промта для Midjourney весомее последних. Если написать «a dark forest with a small glowing fairy», главным объектом станет лес, а фея — второстепенной деталью. А вот «a tiny glowing fairy in a dark dense forest» сместит фокус на фею, и лес превратится в фон. Разница колоссальная. И, безусловно, не стоит забывать про язык: Midjourney обучена преимущественно на английском. Промты на русском языке она обрабатывает хуже — результат получается менее предсказуемым и часто уходит от задуманного. Даже базовый перевод через онлайн-переводчик уже даст ощутимый прирост качества.
Продвинутые техники: weight и multi-prompt
Для тех, кто прошёл стадию новичка, в Midjourney припасён изысканный инструмент — система весов. Работает она так: через двойное двоеточие (::) промт делится на части, и каждой присваивается числовой «вес». Например, «cat::2 astronaut::1» означает, что «кошачья» часть образа для нейросети вдвое важнее «космической». В результате вы получите кота в скафандре, а не астронавта с кошачьими ушами. Без весов же итог непредсказуем: алгоритм сам решит, какой концепт доминирует. Этот механизм — настоящий спасательный круг для сложных комбинированных образов, где нужно чётко контролировать баланс элементов.
К тому же существует техника permutations — фигурные скобки, в которых через запятую перечисляются варианты. Промт «a {red, blue, green} sports car on a highway» автоматически сгенерирует три отдельных задания, каждое с разным цветом машины. Для коммерческой работы это бесценно: вместо того чтобы вручную менять один параметр и ждать каждый раз, нейросеть сделает всё за один заход. И ведь тут же можно комбинировать с весами и стилевыми указаниями — возможности множатся лавинообразно. Впрочем, не стоит увлекаться и забивать в скобки больше четырёх-пяти вариантов, иначе очередь заданий разрастётся, а бюджет подписки сгорит быстрее, чем ожидалось.
Как добиться фотореализма
Фотореализм — пожалуй, самый востребованный жанр в Midjourney. Рекламные баннеры, мокапы, фейковые «фотографии» для презентаций — всё это нуждается в максимальной реалистичности. Главное тут — имитировать язык фотографа, а не художника. Вместо «a portrait of a woman» стоит писать «a candid portrait photo of a 30-year-old woman, shot on Canon EOS R5, 85mm f/1.4 lens, shallow depth of field, natural window light». Нейросеть считывает названия камер, объективов и параметры съёмки — и подстраивает «рендер» соответственно. Это один из тех нюансов, о которых обыватели даже не подозревают.
Нужно отметить, что добротный фотореалистичный результат требует внимания к мелочам, на которые в обычной жизни и не взглянешь. Тип кожи, направление взгляда, фактура одежды, блики на стекле — всё это стоит прописывать явно. Даже упоминание журнала («editorial photo for Vogue») или фотоагентства («Getty Images style») способно заметно сместить эстетику. А если нужна совсем кинематографичная картинка, помогут указания на плёнку: «shot on Kodak Portra 400» или «Fujifilm Pro 400H film grain». Мелочь, казалось бы. Но именно такие мелочи отделяют внушительный профессиональный результат от очередной «картинки из нейросети».
Работа с изображениями-референсами
Не все знают, но Midjourney умеет «видеть». Если вставить в промт прямую ссылку на изображение (URL), алгоритм возьмёт его за основу — учтёт палитру, композицию, общий настрой. Это не копирование: нейросеть не воспроизведёт картинку один в один. Скорее, она «вдохновится» референсом и создаст нечто новое, но стилистически близкое. Для дизайнеров, собирающих мудборды, это колоссальная экономия времени. Кроме того, можно комбинировать несколько изображений-референсов в одном промте, смешивая эстетику двух или трёх источников. А параметр —iw (image weight) позволяет регулировать, насколько сильно нейросеть будет опираться на загруженную картинку: при значении два результат окажется очень близким к оригиналу, а при нуле и пяти — почти полностью проигнорирует его.
Итерации и «дожимание» результата
Редко когда первая генерация оказывается финальной. Ведь Midjourney — это про итерации. Получил сетку из четырёх вариантов, выбрал наиболее удачный, нажал U (upscale) для увеличения или V (variation) для создания похожих вариаций. А дальше — «подкручиваешь» промт: добавил пару слов, убрал лишнее, сменил стиль. И снова генерация. Процесс не сложный, но кропотливый. Некоторые изображения проходят через пять-семь итераций, прежде чем автор скажет «вот оно». И это нормально. Даже профессионалы, зарабатывающие на AI-арте, не попадают в цель с первого раза.
Отдельно стоит упомянуть функцию Remix Mode. При включённом ремиксе нажатие на V открывает окно редактирования промта — можно на лету поменять описание, сохранив общую композицию. Допустим, сгенерированный пейзаж хорош, но хочется сменить время суток с дня на ночь. Вместо того чтобы писать промт заново и надеяться, что нейросеть выдаст похожий ракурс, достаточно в режиме ремикса заменить «daylight» на «moonlit night». Результат сохранит композицию, но настроение изменится кардинально. Это удобно. Ведь иногда одна деталь решает всё — и менять ради неё всю «постройку» нет смысла.
Зачем нужен «негативный промт» и как им пользоваться
Параметр —no уже упоминался выше, но заслуживает отдельного разговора. Дело в том, что Midjourney по умолчанию стремится заполнить «пустоты» в описании знакомыми паттернами. Просишь портрет — получаешь человека с идеальной кожей, но с непрошенным текстом на фоне. Просишь интерьер — алгоритм зачем-то добавляет вазу с цветами, хотя никто не просил. Негативный промт как раз для таких случаев. Прописываешь «—no flowers, text, watermark, frame» — и нейросеть старается исключить эти элементы. Не стоит забывать, что работает этот механизм не со стопроцентной гарантией: если в обучающих данных цветы в вазе слишком тесно связаны с интерьерами, они могут всё равно всплыть. Но в большинстве случаев помогает ощутимо.
Где искать вдохновение для промтов
Настоящий кладезь идей — это сообщество. На платформах вроде PromptHero, Midlibrary и в самом Discord-сервере Midjourney тысячи пользователей публикуют свои промты вместе с результатами. Можно разложить по полочкам чужой удачный запрос, понять логику и адаптировать под свои нужды. К тому же в Midjourney есть команда /describe: загружаешь любое изображение — и нейросеть генерирует четыре варианта промта, которые, по её «мнению», могли бы создать нечто похожее. Инструмент неоднозначный (промты часто получаются избыточными), но как отправная точка для экспериментов — работает отлично. Ну и, конечно же, старый добрый метод проб и ошибок никто не отменял. Да и самый щепетильный перфекционист рано или поздно признаёт: лучший способ научиться — генерировать, генерировать и ещё раз генерировать.
Промт-инженерия в Midjourney — это не техническая рутина, а скорее отдельная форма творчества, где слова превращаются в визуальные образы. С каждой итерацией чувство языка нейросети крепнет, ошибки становятся реже, а результаты — всё ближе к задуманному. Так что не стоит бояться экспериментов и «странных» промтов. Иногда именно самая безумная идея, облечённая в правильные слова, порождает изображение, которое запомнится надолго. Удачи в освоении этого добротного инструмента — пусть каждый промт приближает вас к идеальной картинке.

