Базовые и продвинутые команды Midjourney для точного управления генеративным ботом

Ещё пару лет назад генерация изображений по текстовому описанию казалась чем-то из области фантастики — удел исследовательских лабораторий и энтузиастов, готовых сутками возиться с кодом. А сейчас любой обыватель, имеющий подписку на Discord, способен за считаные секунды получить картинку, от которой у профессионального иллюстратора дрогнет бровь. Midjourney ворвался в эту нишу стремительно и заслуженно стал одним из самых обсуждаемых инструментов в среде дизайнеров, маркетологов и просто творческих людей, грезящих о визуальном контенте без лишних затрат. Но вот ложка дёгтя: львиная доля пользователей так и остаётся на уровне простейших промтов вроде «красивый закат над морем», даже не подозревая, какой кладезь возможностей скрывается за продвинутым синтаксисом команд. А чтобы разложить всё по полочкам, стоит начать с самых основ и постепенно двигаться к тонкой настройке.

С чего начинается работа с ботом?

Точка входа. Всё взаимодействие с Midjourney строится вокруг одной-единственной команды — /imagine. Именно она запускает процесс генерации, принимая после ключевого слова prompt текстовое описание желаемого результата. Казалось бы, проще некуда: ввёл фразу, нажал Enter, получил четыре варианта на сетке. Однако даже на этом этапе всплывают нюансы, о которых новички не задумываются. Дело в том, что бот воспринимает каждое слово в промте не изолированно, а в контексте всех остальных, и порядок слов, запятые, даже регистр букв могут сместить акцент генерации в совершенно неожиданную сторону. К слову, длина промта тоже играет роль — слишком короткие описания дают боту чрезмерную свободу, а чересчур длинные рискуют запутать алгоритм.

После того как сетка из четырёх миниатюр появилась в чате, под ней выстраиваются кнопки с буквами U и V, пронумерованные от одного до четырёх. Кнопка U (от слова upscale) увеличивает выбранное изображение до полного разрешения, а V (от variation) генерирует новый набор вариаций на основе конкретной миниатюры. Ну и, конечно же, есть кнопка с иконкой перезагрузки — она полностью перегенерирует все четыре варианта, сохраняя тот же промт. Эти три элемента — /imagine, апскейл и вариация — составляют фундамент, на котором стоит вся дальнейшая работа.

Параметры через двойное тире

Настоящая магия начинается за пределами текстового описания. После основного промта через двойное тире (—) добавляются параметры, способные кардинально изменить результат генерации. Один из самых востребованных — —ar, отвечающий за соотношение сторон итогового изображения. По умолчанию бот выдаёт квадрат 1:1, но для баннера на сайт нужно, скажем, 16:9, а для сторис в социальных сетях — 9:16. Достаточно дописать —ar 16:9 в конце промта, и бот послушно подстроит пропорции. Нужно отметить, что Midjourney не поддерживает совсем уж экзотические соотношения — слишком вытянутые форматы вроде 1:5 он обрежет до допустимого максимума.

Следующий важный параметр — —q (от quality). Он управляет количеством вычислительного времени, которое бот тратит на генерацию. Значение по умолчанию равно единице. Если поставить —q 0.5, картинка сгенерируется быстрее, но менее детализированной получится. А вот значение —q 2 заставит алгоритм потрудиться дольше, и это ощутимо бьёт по лимиту подписки — каждая такая генерация списывает вдвое больше минут. Стоит задуматься, действительно ли нужна повышенная детализация на этапе черновых набросков, или разумнее приберечь ресурсы для финального результата.

Как управлять «креативностью» бота?

За степень вольности алгоритма отвечает параметр —c (от chaos). Диапазон значений — от нуля до ста. При нулевом хаосе все четыре миниатюры в сетке окажутся довольно похожими друг на друга: бот будет цепляться за самую очевидную интерпретацию промта. А вот при —c 80 или даже —c 100 результаты разлетятся в совершенно разные стороны — один вариант может оказаться фотореалистичным пейзажем, другой вдруг превратится в абстрактную композицию. Это полезно на ранних стадиях поиска идеи, когда направление ещё не выбрано. Но для коммерческой работы, где нужен предсказуемый результат, высокий хаос — скорее помеха.

Вдобавок к хаосу существует параметр —s (от stylize). Вся суть в том, что он определяет, насколько сильно бот привнесёт собственную «художественную отсебятину» в изображение. Низкие значения (от 0 до примерно 100) заставляют алгоритм буквально следовать тексту промта, жертвуя эстетикой ради точности. Высокие значения (до 1000 в пятой версии) превращают генерацию в настоящий холст, где бот солирует как самостоятельный художник, иногда даже игнорируя детали описания. Золотая середина для большинства задач — значение в районе 250–400. Впрочем, для каждого стиля оптимум свой, и найти его можно только методом проб.

Весовые коэффициенты и мульти-промты

Задача не из лёгких. Когда в промте сталкиваются два или три равнозначных объекта, бот вынужден как-то распределять между ними «внимание». И далеко не всегда его решение совпадает с замыслом автора. Для точного контроля в Midjourney предусмотрен механизм мульти-промтов, разделяемых двойным двоеточием (::). Если написать горный пейзаж:: замок на скале::2, то замку бот уделит вдвое больше значимости, чем окружающему ландшафту. Чем выше число после двоеточия, тем сильнее акцент. А если нужно, наоборот, что-то убрать из результата, на помощь приходят отрицательные веса — достаточно указать ::-0.5 после нежелательного элемента.

Кстати, мульти-промты позволяют довольно изящно смешивать стили. Допустим, хочется совместить эстетику ар-деко с японским минимализмом. Через единый промт бот может запутаться в противоречиях, но если развести концепции через двойное двоеточие и расставить веса, результат окажется на удивление гармоничным. Это связано с тем, что алгоритм обрабатывает каждую часть мульти-промта как отдельный вектор в латентном пространстве, а затем складывает их с заданными коэффициентами. Звучит сухо, но на практике эффект впечатляет.

Негативный промтинг через —no

Многие считают, что достаточно описать желаемое, и бот сам поймёт, чего в кадре быть не должно. На самом деле всё наоборот. Midjourney тяготеет к «красивым» композициям и нередко добавляет элементы, которые вы не заказывали: деревья на заднем плане, лишних персонажей, избыточные текстуры. Спасательный круг в такой ситуации — параметр —no. Дописав —no trees, people, clouds после основного промта, вы буквально говорите боту: «Этого здесь не нужно». Работает ли это безупречно? Нет. Иногда запрещённые элементы всё равно всплывают, особенно если они семантически близки к остальной части описания. Но в большинстве случаев —no заметно очищает результат.

Отдельно стоит упомянуть нюанс, о котором редко пишут в руководствах. Параметр —no по сути работает так же, как отрицательный вес в мульти-промте (то есть ::-0.5), но в более удобной обёртке. Если нужна тонкая настройка — скажем, не полностью убрать облака, а лишь ослабить их присутствие — лучше использовать мульти-промт с дробным отрицательным весом. А —no хорош для категоричных запретов, когда элемент в кадре неуместен в принципе.

Версии модели и параметр —v

Midjourney не стоит на месте. Буквально каждые несколько месяцев команда выкатывает новую версию алгоритма, и разница между ними порой грандиозная. Переключение между версиями происходит через параметр —v с указанием номера. Скажем, —v 5.2 активирует соответствующую модель, а —v 6 уже задействует шестую генерацию, которая ощутимо лучше справляется с текстом на изображениях и мелкими деталями вроде пальцев рук (да, эта извечная проблема нейросетей постепенно отступает). Стоит отметить, что параметры —s и —c в разных версиях ведут себя по-разному: значение стилизации 500 в пятой версии и в шестой даст совершенно разный визуальный эффект.

К тому же существует отдельная модель —niji, заточенная под аниме и манга-стилистику. Для тех, кто работает с иллюстрациями в японской эстетике, эта штука творит чудеса. Персонажи получаются пропорциональными, глаза — выразительными, а фоны — детализированными в характерной для аниме манере. Переключиться на неё можно как через параметр в промте, так и через команду /settings, о которой речь пойдёт чуть ниже.

Стоит ли копаться в /settings?

Безусловно. Команда /settings открывает интерактивную панель с кнопками, позволяющую задать параметры «по умолчанию» для всех последующих генераций. Здесь можно выбрать версию модели, базовый уровень стилизации, режим качества и даже переключиться между стандартным режимом и так называемым RAW Mode, который снижает встроенную «приукрашивающую» обработку бота. RAW-режим особенно полезен фотографам и дизайнерам, которым нужна максимально «честная» картинка без художественной отсебятины алгоритма. Впрочем, для абстрактных и декоративных работ стандартный режим всё-таки предпочтительнее — он добавляет ту самую изюминку, ради которой многие и пришли в Midjourney.

Ну, а помимо /settings в арсенале бота есть и другие служебные команды. /info показывает текущий статус подписки, оставшиеся минуты и режим генерации (быстрый или расслабленный). /describe — довольно любопытный инструмент обратной инженерии: загружаешь в него изображение, а бот возвращает четыре варианта текстового промта, которыми теоретически можно воспроизвести нечто похожее. Это не точная реконструкция, конечно, но как стартовая точка для экспериментов — весьма ценная вещь.

Работа с референсными изображениями

Сухой текст — далеко не единственный способ общения с ботом. Midjourney умеет принимать URL-адреса изображений прямо в промте, используя их как визуальный ориентир. Достаточно вставить ссылку перед текстовым описанием, и алгоритм попытается совместить стиль, палитру или композицию загруженной картинки со словесными указаниями. Степень влияния референса регулируется параметром —iw (от image weight). При значении 0.5 бот лишь слегка оглядывается на загруженное фото, а при 2.0 оно становится доминирующим фактором генерации. Для коллажей и стилизаций под конкретного художника эта функция — настоящий спасательный круг.

Важный нюанс: ссылки на изображения должны быть прямыми (заканчиваться на .jpg, .png и тому подобное). Ссылки со страниц Pinterest или Google Images бот не примет. Проще всего загрузить нужную картинку в сам Discord, скопировать её URL и вставить в промт. И ещё одно — нельзя не упомянуть, что при использовании нескольких референсов одновременно (до пяти штук) результат получается довольно непредсказуемым. Бот пытается «усреднить» все загруженные образы, и иногда итог напоминает сюрреалистический коллаж. Иногда — шедевр.

Команда /blend — быстрое смешивание

Если работа с URL-ссылками кажется громоздкой, для простого смешивания двух-пяти изображений предусмотрена отдельная команда /blend. Она запрашивает от двух до пяти картинок через интерфейс загрузки Discord и генерирует результат, сочетающий в себе визуальные черты всех исходников. Текстовый промт при этом не используется — только визуальная информация. Это удобно для создания мудбордов и быстрого прототипирования, когда словами сложно передать желаемую атмосферу. А вот для точного контроля над результатом /blend всё-таки не подходит — слишком мало рычагов влияния.

Продвинутые техники промтинга

За пределами стандартных параметров лежит целый мир промт-инженерии — дисциплины, которая буквально на глазах превращается в полноценную профессию. Один из самых мощных приёмов — использование имён конкретных фотографов, художников или кинематографических стилей прямо в промте. Написав «in the style of Wes Anderson» или «shot by Roger Deakins», вы задаёте боту эстетическую рамку, которую он довольно точно воспроизводит: характерную цветовую палитру, композиционные приёмы, даже фактуру освещения. Разумеется, этичность таких заимствований — тема неоднозначная, но с технической точки зрения результат приковывает внимание.

Следующий приём — указание параметров виртуальной «камеры» и оптики. Фразы вроде «shot on Canon EOS R5, 85mm f/1.4, shallow depth of field» заставляют бот имитировать фотографическое боке, зернистость плёнки, специфическую дисторсию конкретного объектива. Для тех, кто работает в коммерческой фотографии и хочет получить реалистичный мокап продукта, эта техника — настоящий клад. К тому же можно указывать тип освещения: «golden hour lighting», «Rembrandt lighting», «neon cyberpunk glow». Каждый такой модификатор смещает атмосферу генерации в нужную сторону, и чем конкретнее описание, тем предсказуемее итог.

Отдельно стоит упомянуть параметр —tile, генерирующий бесшовные паттерны, пригодные для текстур и фонов. Добавив его к промту с описанием орнамента или абстрактной текстуры, вы получите изображение, которое можно бесконечно дублировать по горизонтали и вертикали без видимых швов. Для веб-дизайнеров и создателей игровых ассетов — вещь незаменимая. Да и обычному блогеру пригодится: добротный бесшовный фон для шапки сайта найти не так-то просто, а сгенерировать — дело пяти секунд.

Что насчёт параметра —seed?

Каждая генерация в Midjourney привязана к случайному числовому «зерну» — seed-значению. Именно оно определяет начальный шум, из которого алгоритм «вырисовывает» изображение. По умолчанию зерно каждый раз выбирается случайным образом, поэтому два одинаковых промта дают разные результаты. Но если зафиксировать seed через параметр —seed 12345 (любое целое число от 0 до 4294967295), можно добиться воспроизводимости. Это ведь бесценно, когда нужно протестировать влияние одного-единственного параметра: менять только его, а всё остальное, включая seed, держать неизменным.

Узнать seed уже сгенерированного изображения тоже нетрудно. Достаточно добавить к сообщению с результатом эмодзи-реакцию в виде конверта (✉️), и бот пришлёт seed в личные сообщения. Приём простой, но знают о нём далеко не все. А ведь именно контроль зерна отличает скрупулёзного промт-инженера от случайного экспериментатора, который жмёт кнопку перегенерации вслепую и надеется на удачу.

Быстрый режим и режим расслабленной генерации

Подписка на Midjourney включает определённый лимит «быстрых» минут — они тратятся в режиме Fast, когда генерация занимает от десяти до шестидесяти секунд в зависимости от сложности промта и нагрузки на серверы. Когда лимит исчерпан, остаётся Relax-режим, в котором генерации ставятся в очередь и могут ждать от одной до десяти минут. Переключение между режимами происходит через команды /fast и /relax — или через уже упомянутую панель /settings. Для коммерческих проектов, где время — деньги, стоит рационально распределять быстрые минуты: черновые наброски гонять в Relax, а финальные доработки — в Fast.

Тем более что существует ещё и третий режим — Turbo, доступный за дополнительную плату. Генерация в нём занимает буквально три-пять секунд, но каждый запуск списывает вдвое больше минут из лимита. Серьёзное вложение для тех, кто работает с большими объёмами, однако в ситуациях, когда клиент ждёт результат «на вчера», этот режим окупается сполна.

Команда /prefer и пользовательские суффиксы

Кнопочки и параметры — это хорошо, но когда каждый день генерируешь десятки изображений в одном стиле, постоянно дописывать одни и те же суффиксы утомляет. Здесь на помощь приходит команда /prefer suffix. Она позволяет задать набор параметров, который будет автоматически добавляться к каждому промту. Например, установив суффикс —ar 16:9 —v 6 —s 300 —q 1, вы избавляете себя от рутины и сокращаете время работы на десятки процентов. Сбросить суффикс — тоже проще простого: достаточно вызвать ту же команду с пустым значением.

Ещё одна изящная функция — /prefer option set, позволяющая создавать именованные наборы параметров. Допустим, вы создаёте опцию с именем «кинематограф» и привязываете к ней строку —ar 2.39:1 —v 6 —s 400 —no text, watermark. После этого в любом промте достаточно дописать —кинематограф, и весь набор подставится автоматически. Для студий и фрилансеров, работающих с несколькими брендбуками одновременно, — решение, которое не сильно ударит по нервам и времени.

Подводные камни и типичные ошибки

Не стоит забывать о нескольких моментах, на которых спотыкаются даже опытные пользователи. Во-первых, порядок слов в промте имеет значение: бот уделяет чуть больше «внимания» тому, что стоит ближе к началу. Во-вторых, синонимы — не одно и то же: слова «big» и «enormous» дают заметно разные результаты, потому что в обучающей выборке каждое из них ассоциировано с разными визуальными паттернами. Ну, а в-третьих — и это, пожалуй, самый щепетильный момент — не стоит перегружать промт более чем шестьюдесятью-семьюдесятью словами. После этого порога бот начинает «терять» концепции из середины описания, и результат оказывается далёким от задуманного.

А ещё бросается в глаза типичная ошибка новичков — попытка описать отрицание внутри основного промта словами «without» или «no». Бот плохо понимает отрицания в свободном тексте; для него «a landscape without trees» — это всё равно про деревья. Для исключения элементов существуют специальные инструменты: параметр —no и отрицательные веса в мульти-промтах. Об этом уже шла речь выше, но повторить нелишне. Ведь именно эта ошибка портит добрую половину генераций у тех, кто пренебрегает чтением документации.

Midjourney развивается с такой скоростью, что любой гайд рискует устареть через пару месяцев, — и всё же базовые принципы работы с параметрами, весами и режимами остаются неизменными уже на протяжении нескольких версий. Освоив их, вы получите добротный фундамент, на котором легко надстраивать любые новые фичи по мере их появления. Удачи в укрощении генеративного бота — пусть каждая картинка попадает точно в замысел с первого раза. Ну, или хотя бы со второго.