Львиная доля пользователей Midjourney работает с нейросетью по одному и тому же сценарию — вбивает короткий промт на английском, жмёт Enter и надеется на лучшее. Иногда результат приковывает внимание с первого взгляда, а иногда хочется закрыть вкладку и забыть о потраченных минутах. Многие грешат на «капризный характер» алгоритма, мол, нейросеть сама решает, что ей рисовать. Но на самом деле за кулисами генерации скрывается целый арсенал параметров, модификаторов и неочевидных приёмов, которые позволяют буквально дирижировать процессом. А чтобы перейти от слепого тыканья к осознанному управлению, стоит разобраться в этих «секретных кодах» поглубже.
Что скрывается за двойным тире?
Основа управления Midjourney — параметры, которые дописываются в конце промта через двойное тире. Выглядит это довольно просто: после текстового описания через пробел добавляется конструкция вроде —ar 16:9 или —q 2. Казалось бы, мелочь. Ведь сам промт занимает десяток слов, а эти «хвостики» — всего пару символов. Однако именно они радикально меняют результат, задавая нейросети жёсткие рамки. Без них алгоритм работает со значениями по умолчанию, и далеко не всегда такие настройки совпадают с задумкой автора. К слову, даже опытные пользователи порой забывают о каком-нибудь неочевидном флаге, хотя он мог бы сэкономить им пять-шесть итераций подряд.
Один из самых востребованных параметров — —ar, то есть соотношение сторон. По умолчанию Midjourney генерирует квадратное изображение 1:1, но далеко не каждая задача вписывается в квадрат. Для горизонтальных пейзажных сцен подходит 16:9, для вертикальных портретов — 9:16, а для баннеров и обложек довольно часто выбирают 3:2 или даже 21:9. Нюанс в том, что соотношение сторон влияет не только на «обрезку», но и на саму композицию кадра. Нейросеть по-разному распределяет объекты в зависимости от пропорций холста, и вытянутый горизонтальный формат буквально заставляет алгоритм «расстилать» пространство вширь.
Качество, стилизация и хаос
Три параметра, которые между собой тесно переплетены. Первый — —q (quality). Его значение колеблется от 0.25 до 2 в зависимости от версии модели. При минимальном значении генерация проходит быстрее, но детализация страдает: текстуры выглядят размытыми, мелкие элементы сливаются в кашу. На максимуме же нейросеть тратит больше вычислительных ресурсов (а значит, и минут GPU из подписки), зато прорабатывает каждую складку ткани, каждый блик на металле. Не стоит, впрочем, гнаться за максимумом в любой ситуации — для быстрых черновиков и поиска композиции вполне хватает значения 0.5.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Дальше — —s (stylize). Это, пожалуй, самый неоднозначный рычаг управления. Чем выше число после флага, тем сильнее Midjourney «приукрашивает» результат, добавляя собственную художественную интерпретацию. При нулевом значении нейросеть старается максимально точно следовать текстовому описанию, почти не привнося отсебятины. А вот при значении 1000 алгоритм буквально берёт промт за отправную точку и уходит в свободное творчество — результаты получаются красивыми, но порой весьма далёкими от задумки. Золотая середина для большинства задач — где-то в районе 100–250.
Ну и, наконец, —chaos. Этот параметр (от 0 до 100) определяет степень разнообразия между четырьмя вариантами в одной генерации. При нулевом хаосе все четыре картинки будут похожи друг на друга как родные братья. При значении 80–100 разброс окажется колоссальным — от фотореалистичной сцены до абстрактного коллажа в рамках одного запроса. Это удобно на этапе поиска идеи, когда нужно «расшатать» нейросеть и посмотреть, в какую сторону она способна увести концепцию. Но для финальной генерации такой хаос, разумеется, излишен.
Как работают «весовые» конструкции в промте?
Не все знают, но внутри самого текстового описания тоже спрятан мощный инструмент. Двойное двоеточие (::) позволяет разбить промт на смысловые блоки и назначить каждому блоку свой «вес». Допустим, нужно сгенерировать сцену, где на первом плане — старинная библиотека, а на втором — таинственное свечение. Промт может выглядеть так: ancient library::2 mysterious glow::1. Двойка после первого блока говорит нейросети, что библиотека вдвое важнее свечения. Без весов алгоритм распределяет внимание равномерно, и результат нередко получается «ни рыба ни мясо» — ни библиотека толком не прорисована, ни атмосферы нет.
Отдельно стоит упомянуть отрицательные веса. Конструкция ::-0.5 после какого-либо элемента буквально вычитает его из изображения. Хотя более привычный способ исключения — параметр —no, который работает проще: достаточно написать —no trees, clouds, и нейросеть постарается убрать деревья и облака из результата. На практике ни один из этих методов не гарантирует стопроцентного исключения. Ведь Midjourney — не Photoshop, и семантические связи внутри модели порой оказываются сильнее прямых запретов. И всё же при грамотном использовании отрицательные веса творят чудеса, очищая сцену от нежелательного визуального мусора.
Секреты работы с изображениями-референсами
Текст — лишь половина уравнения. Midjourney умеет принимать на вход ссылки на изображения, и вот тут начинается самое интересное. Ссылку на картинку достаточно вставить в начало промта, перед текстовым описанием. Нейросеть проанализирует цветовую гамму, композицию, общее настроение и постарается интегрировать всё это в генерацию. Но насколько сильно референс повлияет на итог? За это отвечает параметр —iw (image weight). При значении 0.5 текст доминирует над картинкой, а при 2 — наоборот, изображение-образец солирует.
Кстати, с появлением пятой версии модели появился ещё один добротный инструмент — —sref (style reference). Он позволяет «снять» стиль с одной картинки и перенести его на совершенно другую сцену. Допустим, у вас есть акварельная иллюстрация с характерной палитрой и фактурой мазков. Скормив её через —sref, вы получите новую генерацию в том же духе, но с абсолютно другим сюжетом. К тому же параметром —sw (style weight) можно регулировать интенсивность стилевого заимствования — от едва заметного намёка до практически точного копирования манеры. Для дизайнеров, выстраивающих визуальную серию в едином ключе, этот инструмент — настоящий спасательный круг.
Стоит ли возиться с версиями модели?
Безусловно. Дело в том, что каждая версия Midjourney ведёт себя по-своему, словно отдельный художник со своим характером. Переключение между версиями осуществляется параметром —v с указанием номера. Третья версия тяготела к фантасмагорическим, почти сюрреалистическим образам и довольно вольно обращалась с анатомией. Четвёртая стала аккуратнее, обзавелась более правдоподобными лицами и руками. А пятая и шестая версии совершили грандиозный скачок в сторону фотореализма — кожа, ткани, отражения на воде стали выглядеть пугающе натурально.
Но есть и отдельный режим — —niji, созданный совместно с командой Spellbrush специально для генерации в аниме-стилистике. Переключившись на него, вы получаете совершенно другую «рисовальную руку»: чистые контуры, крупные выразительные глаза, характерная для японской анимации цветовая палитра. Многие считают, что Niji — баловство для фанатов аниме, но на самом деле эта модель прекрасно справляется с иллюстрациями для детских книг, стикерами и даже концепт-артом для инди-игр. Впрочем, для фотореалистичных сцен возвращаться к основной модели всё-таки придётся — здесь Niji бессильна.
Скрытые команды и режимы
Помимо числовых параметров, в Midjourney существуют текстовые команды, о которых обыватель может и не догадываться. Команда /describe работает в обратную сторону — вы загружаете картинку, а нейросеть генерирует четыре варианта текстового описания, которое (теоретически) могло бы породить нечто подобное. Это кладезь информации для тех, кто учится составлять промты. Ведь алгоритм раскладывает по полочкам визуальные элементы изображения и переводит их на язык, понятный самой нейросети.
Другая полезная команда — /blend. Она принимает от двух до пяти изображений и «сплавляет» их в одно целое. Никакого текстового промта не требуется. Алгоритм сам определяет доминирующие визуальные черты каждого загруженного файла и пытается найти гармоничный компромисс. Результат бывает непредсказуемым, но в этом и заключается изюминка — иногда натыкаешься на такие комбинации, до которых сознательно никогда бы не додумался. А команда /shorten помогает оптимизировать слишком длинный промт, подсвечивая слова и фразы, которые нейросеть фактически игнорирует. Довольно часто выясняется, что половина красочного описания попросту не влияет на генерацию, и текст можно сократить вдвое без потери качества.
Сид-номера: зачем запоминать «отпечаток» генерации?
Каждая генерация в Midjourney получает свой уникальный номер — сид (seed). По умолчанию он выбирается случайно, и именно поэтому два идентичных промта дают разные результаты. Но если зафиксировать сид через параметр —seed с конкретным числом, нейросеть воспроизведёт очень похожий (хотя не всегда идентичный) результат. Зачем это нужно? Во-первых, для итеративной работы: найдя удачную композицию, можно менять отдельные слова в промте, сохраняя общую структуру кадра. Во-вторых, для командной работы — передав коллеге промт вместе с сидом, вы получите воспроизводимый результат, а не «кота в мешке».
Узнать сид уже сгенерированного изображения тоже не сложно. Достаточно поставить эмодзи-реакцию ✉️ на сообщение бота, и Midjourney пришлёт номер в личные сообщения. К тому же, комбинируя фиксированный сид с параметром —chaos, можно получить контролируемую вариативность: общая «карта» сцены останется прежней, а детали будут варьироваться от генерации к генерации. Тем более что при работе с серией иллюстраций (например, для лендинга или презентации) стабильность визуального ряда — вещь щепетильная.
Мультипромты и продвинутые текстовые трюки
Неожиданный приём. Если написать в промте слово через двойное двоеточие без пробела — скажем, hot::dog — Midjourney воспримет «hot» и «dog» как два отдельных концепта, а не как единое «хот-дог». Результатом окажется буквально горячая собака вместо сосиски в булке. Звучит забавно, но этот механизм позволяет решать вполне серьёзные задачи: разделение составных слов помогает избежать нежелательных семантических склеек, когда нейросеть объединяет два понятия в одно.
Ещё один скрытый трюк — permutation prompts, или подстановочные промты. С их помощью в фигурных скобках через запятую перечисляются варианты, и Midjourney автоматически генерирует отдельное изображение для каждого. Промт вида a {red, blue, golden} dragon on a cliff —ar 16:9 породит сразу три задания: с красным, синим и золотым драконом соответственно. Для скрупулёзного подбора цветовой гаммы или сравнения стилей это экономит внушительное количество времени. Да и сам процесс становится менее рутинным, что всегда приятно.
Как не растратить подписку впустую?
Вопрос экономии бьёт по бюджету сильнее, чем кажется на первый взгляд. Каждая подписка Midjourney имеет ограничение по «быстрым» GPU-часам, и бездумная генерация на максимальных настройках качества может съесть месячный лимит за пару дней. Стоит задуматься о стратегии: черновики и поиск идеи лучше проводить с параметром —q 0.5 или даже —q 0.25 в режиме —fast, а финальный рендер — уже на максимуме, возможно даже в —relax (если подписка позволяет), чтобы не тратить быстрые минуты.
Нельзя не упомянуть и параметр —tile, который создаёт бесшовные текстуры. Для дизайнеров, работающих с паттернами для тканей, обоев или игровых ассетов, эта функция — настоящая находка. Сгенерированное изображение можно бесконечно дублировать по горизонтали и вертикали, и стыков видно не будет. А параметр —repeat (сокращённо —r) позволяет запустить один и тот же промт несколько раз подряд, получив, скажем, десять вариаций за один клик. Это удобно. Ведь из десяти результатов хотя бы два-три наверняка окажутся достойными.
Продвинутая стратегия промтинга
С описанием сюжета всё более-менее понятно: чем конкретнее текст, тем точнее генерация. Но немногие задумываются о том, что порядок слов в промте тоже имеет значение. Midjourney придаёт больший вес словам, стоящим в начале строки. Если нужен «закат над горами», а горы при этом важнее самого заката — стоит поставить «mountains» перед «sunset». Мелочь, казалось бы. Но на практике простая перестановка слов местами порой меняет картинку радикальнее, чем добавление нового параметра.
Отдельно стоит поговорить о «стоп-словах» и модификаторах среды. Добавление в промт таких выражений, как cinematic lighting, volumetric fog, shot on Hasselblad, 35mm film grain — не просто украшательство. Каждое из них подтягивает определённый визуальный пласт из тренировочных данных нейросети. «Cinematic lighting» буквально заставляет алгоритм строить светотеневую схему, характерную для голливудских блокбастеров, с выраженным контровым светом и глубокими тенями. А «shot on Hasselblad» добавляет ту самую среднеформатную «объёмность», которую ценят профессиональные фотографы. Тем более что комбинирование нескольких таких модификаторов позволяет добиться поразительно точной атмосферы — вплоть до имитации конкретного десятилетия в кинематографе.
Подводные камни и частые ошибки
Задача не из лёгких — освоить все параметры разом. И ошибки на этом пути неизбежны. Самая распространённая — перегруженный промт. Когда пользователь пытается впихнуть в одну строку двадцать прилагательных, три стилевых референса, пару отрицательных весов и ещё параметры сверху, нейросеть буквально «задыхается». Результат получается размытым, противоречивым, словно художнику одновременно выкрикивали указания десять человек. Не стоит перебарщивать: оптимальная длина промта — от 10 до 60 слов, остальное лучше вынести в параметры.
Вторая ловушка — слепое копирование чужих промтов. В сети представлено множество «магических формул», обещающих идеальный результат. Но копирование без понимания механики — махинации с собственным временем. Ведь каждый промт создавался под конкретную версию модели, с определённым сидом, при определённых настройках стилизации. Без этого контекста результат окажется непредсказуемым. Куда разумнее разобрать чужой промт на составляющие, понять логику каждого элемента и адаптировать его под свою задачу.
Третий подводный камень — игнорирование апскейла. После первичной генерации четырёх превью изображение можно увеличить кнопками U1–U4. Но не все знают, что в настройках (через /settings) доступны разные режимы апскейла: «subtle» сохраняет максимальную близость к превью, а «creative» добавляет при увеличении новые детали, которых в превью не было. Для портретов и архитектуры лучше выбирать первый вариант, а для фэнтезийных пейзажей — второй. Впрочем, всё зависит от конкретного случая.
Комбинирование параметров: рецепты для разных задач
Фотореалистичный портрет — задача, где стоит выставить —s 50 (минимум отсебятины от нейросети), —q 2, добавить в промт Canon EOS R5, 85mm f/1.4, studio lighting и зафиксировать соотношение сторон —ar 3:4. Хаос лучше оставить на нуле. Нейросеть при таких настройках сконцентрируется на анатомической точности и реалистичной передаче освещения, не отвлекаясь на художественные эксперименты.
Для концепт-арта фантастического мира расклад другой. Здесь стилизацию можно поднять до 500–750, хаос — до 30–50, а в промт добавить имена конкретных художников, чей стиль вдохновляет: in the style of Simon Stålenhag или inspired by Moebius. Niji-модель в этом случае тоже бывает полезна, особенно если концепт тяготеет к стилизованной, а не реалистичной графике. Да и сам процесс становится увлекательнее — каждая генерация напоминает совместное творчество с непредсказуемым соавтором.
Ну, а для бесшовных паттернов и текстур рецепт максимально прост: —tile —q 1 —s 100, плюс лаконичный промт без упоминания конкретных объектов, если нужна абстракция — organic texture, coral reef colors, macro photography. Главное — не забыть про —tile, иначе при дублировании изображения швы бросятся в глаза мгновенно.
Генерация идеальных картинок с первого раза — скорее миф, чем реальность. Даже профессионалы, зарабатывающие на Midjourney, проходят через десятки итераций, прежде чем получают тот самый кадр. Но разница между новичком и опытным пользователем — не в таланте и не в везении, а в понимании инструментов. Каждый параметр, каждая команда, каждый весовой модификатор — это рычаг, который делает процесс чуточку управляемее. И чем больше таких рычагов в вашем арсенале, тем ближе результат к замыслу. Удачи в экспериментах — нейросеть ждёт грамотного дирижёра.

