Как настроить параметры в Midjourney для получения кинематографичных кадров

Ни одна нейросеть за последние пару лет не наделала столько шума, сколько Midjourney. Художники спорят, маркетологи ликуют, а обычный обыватель, впервые открывший Discord, часами пытается выбить из алгоритма хотя бы что-то отдалённо напоминающее профессиональную фотографию. Кадры, снятые «на плёнку» или стилизованные под голливудский блокбастер, льются рекой в лентах соцсетей — и кажется, будто авторы владеют каким-то тайным знанием. На самом деле львиная доля успеха кроется не в креативности промта, а в скрупулёзной настройке параметров, о которых новички даже не догадываются. Но чтобы от восхищения чужими работами перейти к собственным шедеврам, стоит разобраться в механике инструмента.

Что вообще значит «кинематографичный кадр»?

Странный вопрос, на первый взгляд. Ведь каждый хотя бы раз видел стоп-кадр из фильма Дени Вильнёва или Роджера Дикинса и сразу ощущал — вот она, та самая атмосфера. Дело в том, что кинематографичность складывается из нескольких тонких нюансов одновременно. Во-первых, это специфическая глубина резкости, при которой задний план мягко «уплывает» в размытие. Во-вторых, цветовая палитра — не кричащая, а сдержанная, часто с лёгким сдвигом в тёплые или холодные тона. Ну и, наконец, соотношение сторон кадра: кинокамера снимает не в привычном 1:1 или 4:3, а в широких форматах вроде 2.39:1 или 21:9. Именно совокупность этих мелочей и творит чудеса, превращая обычную генерацию в нечто, от чего глаз не оторвать.

Соотношение сторон и параметр —ar

Начать стоит с самого очевидного. Midjourney по умолчанию выдаёт квадратное изображение — 1:1. Для аватарки сойдёт, но кинематографичность такой формат убивает на корню. Широкий горизонтальный кадр — вот что приковывает внимание и мгновенно вызывает ассоциацию с большим экраном. Параметр —ar меняет пропорции генерации: стоит добавить в конце промта —ar 21:9 или —ar 2.39:1, и картинка сразу приобретает тот самый «вайб» киноленты. Впрочем, не всегда нужна именно такая крайность. Для более сбалансированного результата довольно часто срабатывает —ar 16:9 — классические телевизионные пропорции, знакомые каждому. А вот вертикальный формат —ar 9:16 тяготеет скорее к постерам и обложкам, чем к кинокадрам, так что для нашей задачи он не подходит.

Стилизация через —stylize

Тонкая штука. Параметр —stylize (или сокращённо —s) управляет тем, насколько сильно нейросеть «приукрашивает» результат собственным художественным видением. Значение варьируется от 0 до 1000. При нуле алгоритм послушно следует промту, почти не добавляя отсебятины, — изображение выходит довольно сухим, техничным, без души. На противоположном полюсе — максимальная стилизация, при которой Midjourney берёт промт лишь за отправную точку и уносится в свободное плавание. Для кинематографичных кадров золотая середина находится где-то между 250 и 750. Именно в этом диапазоне нейросеть добавляет красивое освещение и глубину, но при этом не превращает сцену в абстрактную фантазию. Не стоит бояться экспериментов: иногда значение 600 даёт роскошный «нуарный» свет, а иногда при 400 рождается мягкая пастельная палитра, напоминающая работы Эммануэля Любецки.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Что даёт —chaos?

Непредсказуемость. Ведь именно она отличает живое кино от шаблонного стока. Параметр —chaos (от 0 до 100) определяет, насколько сильно будут различаться четыре варианта в одной генерации. При нулевом значении все четыре картинки окажутся практически идентичными — разница в мелочах. При высоком хаосе нейросеть каждый раз интерпретирует промт по-новому, и среди четырёх вариантов может всплыть совершенно неожиданная композиция. Для «киношных» задач стоит задуматься о значениях в районе 15–30. Это даёт достаточную вариативность, чтобы наткнуться на интересный ракурс, но не превращает результат в хаотичное месиво. Многие считают, что высокий chaos — это путь к креативности, но на самом деле при значениях выше 50 контроль над результатом теряется почти полностью.

Версия модели и параметр —v

С выходом каждой новой версии Midjourney менялся и визуальный «почерк» нейросети. Пятая версия (—v 5) стала переломным моментом — фотореалистичность подскочила до уровня, при котором отличить генерацию от реальной фотографии стало довольно непросто. Но настоящий кладезь возможностей для кинематографичных кадров открылся с появлением версий 5.2, 6 и далее. Каждая итерация лучше понимает контекст промта и тоньше работает с освещением. К слову, в шестой версии нейросеть стала куда точнее передавать текст на изображении и лучше справляться со сложными сценами, где присутствуют несколько персонажей. Нужно отметить, что для кинематографичной стилистики не стоит откатываться к ранним моделям — третья и четвёртая версии тяготеют к иллюстративности, а не к фотореализму.

Отдельно стоит упомянуть режим —style raw. Он снижает «встроенную эстетику» Midjourney и приближает результат к необработанному, «сырому» снимку. Звучит парадоксально, но для кинокадра это бывает ценнее, чем вся красота стандартного стиля. Ведь в реальном кинематографе оператор работает с «сырым» изображением, а цветокоррекцию делает колорист уже на этапе постпродакшена. И стиль raw даёт именно такой базовый материал — без лишней наляпистости, без перенасыщенных цветов, без пластикового блеска.

Магия промта: какие слова делают кадр «живым»?

Сам промт — это, по сути, режиссёрская разводка сцены. И тут бросается в глаза одна закономерность: чем конкретнее описание, тем кинематографичнее результат. Вместо абстрактного «красивый пейзаж» куда эффективнее работает формулировка вроде «foggy mountain pass at golden hour, shot on Arri Alexa, 35mm lens, shallow depth of field». Упоминание конкретной камеры (Arri Alexa, RED Komodo, Sony Venice) и объектива (anamorphic lens, 50mm prime) мгновенно переключает нейросеть в «кинорежим». Это связано с тем, что в обучающей выборке Midjourney подобные термины неразрывно связаны с реальными кинокадрами и референсами со съёмочных площадок.

Отдельную лепту вносят термины из мира цветокоррекции. Добавив в промт «teal and orange color grading» или «desaturated cold tones», можно сразу задать настроение. К тому же стоит экспериментировать с упоминанием конкретных режиссёров или операторов: «in the style of Roger Deakins», «Denis Villeneuve cinematography», «Wes Anderson color palette» — всё это работает как мощный рычаг, направляющий генерацию в нужное русло. Но есть и ложка дёгтя: перегруженный промт из двадцати терминов чаще всего даёт размытый результат, потому что нейросеть пытается угодить всем запросам одновременно и в итоге не угождает ни одному. Пять-семь точных слов работают лучше, чем пятнадцать размытых.

Освещение — главный герой кадра

Без правильного света не существует кино. Это постулат, который ни один оператор оспаривать не станет. В Midjourney свет задаётся словами, и тут важно быть щепетильным до мелочей. «Cinematic lighting» — хороший старт, но слишком общий. Гораздо точнее срабатывают конкретные типы: «volumetric lighting» создаёт объёмные лучи, пробивающиеся сквозь туман или пыль. «Rim lighting» даёт контровой свет, очерчивающий силуэт персонажа тонкой яркой линией. «Chiaroscuro» — это драматичный контраст света и тени, отсылающий к живописи Караваджо и фильмам-нуар. А «practical lighting» говорит нейросети, что источник света должен быть виден в кадре — лампа, свеча, неоновая вывеска.

Время суток тоже солирует в этом оркестре. «Golden hour» окутывает сцену тёплым янтарным сиянием, «blue hour» — холодным предрассветным светом. «Overcast sky» даёт мягкий рассеянный свет без резких теней, что довольно часто используется в европейском артхаусе. И не стоит забывать про ночные сцены: формулировка «moonlit scene, low key lighting» может выдать кадр, достойный работ Дикинса в «1917». Нюанс в том, что сочетание типа освещения с конкретной камерой и объективом в одном промте — это уже не просто запрос, а полноценная техническая карта кадра.

Глубина резкости и эффект боке

Размытый фон. Именно этот приём мгновенно отделяет «кинокадр» от «фото на телефон». В Midjourney глубину резкости задают фразами «shallow depth of field», «bokeh background» или указанием конкретной диафрагмы — например, «f/1.4 aperture». Чем ниже число диафрагмы, тем сильнее размытие и тем выразительнее отделяется объект от фона. Нейросеть понимает эти параметры на удивление точно — видимо, дело в огромном количестве фотографических метаданных в обучающей выборке. А если добавить к этому анаморфотный объектив (anamorphic lens), то боке приобретёт характерную овальную форму, свойственную голливудским блокбастерам. Выглядит впечатляюще, даже если сцена совершенно обыденна.

Как работать с —quality и —repeat?

Параметр —quality (или —q) влияет на время генерации и, как следствие, на детализацию. Значение по умолчанию — 1. Повышение до 2 удваивает время обработки, но добавляет мелких деталей: текстуру ткани, блики на стекле, пылинки в воздухе — всё то, что в реальном кино зритель считывает подсознательно. Для кинематографичных кадров, где каждая мелочь на счету, повышенное качество — разумное вложение. Да, это бьёт по бюджету подписки (быстрые минуты расходуются вдвое активнее), но результат того стоит.

Параметр —repeat (или —r) позволяет запустить один и тот же промт несколько раз подряд — от 2 до 40 повторов. Зачем? Дело в том, что даже при идеально выверенном промте Midjourney выдаёт разные результаты каждый раз. И среди десяти генераций одна может оказаться тем самым грандиозным кадром, ради которого всё затевалось. Профессионалы, работающие с нейросетью на коммерческих проектах, нередко ставят по 10–20 повторов и потом выбирают лучшее из лучшего. Процесс не сложный, но кропотливый — совсем как отбор дублей на съёмочной площадке.

Негативный промт и параметр —no

Задача не из лёгких. Ведь объяснить нейросети, чего ты не хочешь видеть — иногда сложнее, чем описать желаемое. Параметр —no работает как фильтр-исключение: после него через запятую перечисляются элементы, которых в кадре быть не должно. Например, —no text, watermark, blurry, oversaturated убирает надписи, водяные знаки, размытость и перенасыщенность цвета. Для кинематографичных кадров это настоящий спасательный круг. Без негативного промта нейросеть довольно часто добавляет «отсебятину»: лишних персонажей, декоративные элементы или неуместно яркие цвета. А с грамотным —no результат сразу становится чище и ближе к задуманному.

Seed — воспроизводимость «удачного дубля»

Каждая генерация в Midjourney привязана к случайному числу — так называемому seed. Если результат понравился, но хочется внести мелкие правки (скажем, поменять время суток или цветовую палитру), стоит зафиксировать seed исходного изображения. Это делается через реакцию на сообщение бота конвертом (✉️) — в ответ придёт номер seed. Затем этот номер добавляется в новый промт через —seed [число], и нейросеть генерирует изображение с той же базовой композицией. Безусловно, полного совпадения ожидать не стоит, особенно при серьёзных изменениях в тексте промта. Но общая структура, расположение объектов и характер освещения сохраняются. Для итеративной работы над одним кинематографичным кадром — вещь незаменимая.

Сборка промта: пошаговая логика

С чего начинается хороший промт? С определения сцены — конкретного места, времени и действия. Сначала идёт описание того, что происходит в кадре: «A lone figure walking through a rain-soaked Tokyo alley at night». Далее следует техническая часть — камера, объектив, тип освещения: «shot on Arri Alexa Mini, anamorphic 40mm lens, neon-lit, volumetric fog». Потом добавляются стилистические указания: «teal and orange color grading, cinematic composition, moody atmosphere». Ну и, наконец, параметры Midjourney: —ar 21:9 —s 500 —q 2 —style raw —no text, watermark. Весь промт укладывается в одну строку, и каждая его часть вносит свою лепту в итоговый результат. Кстати, порядок слов в промте тоже имеет значение — элементы в начале строки нейросеть «весит» чуть сильнее, чем те, что стоят в конце.

Особый интерес вызывает работа с двойными промтами через оператор ::. Он позволяет задать «вес» разным частям описания. Например: «cinematic night scene::2 Tokyo street::1 rain reflections::1.5» — здесь кинематографичность ночной сцены получает приоритет, дождевые отражения усилены, а сама улица Токио отходит на второй план. Этот инструмент довольно сложный в освоении, но открывает колоссальные возможности для тонкой настройки. И всё же перебарщивать с весами не стоит — при слишком большом разрыве между значениями генерация может «сломаться» и выдать абстрактный результат.

Распространённые ошибки новичков

Многие считают, что достаточно написать «cinematic» в промте — и нейросеть сама разберётся. Но на практике одно-единственное слово без подкрепления конкретикой работает слабо. Midjourney интерпретирует «cinematic» очень широко: это может быть и мультяшный кадр из Pixar, и нуарный чёрно-белый снимок. Без уточнений — лотерея. Ещё одна типичная ошибка — попытка впихнуть в промт абсолютно всё. Двадцать прилагательных, три стиля одновременно, пять разных источников света. Результат? Каша. Нейросеть не справляется с противоречивыми указаниями и выдаёт усреднённый компромисс, который не устраивает никого.

Да и с параметрами люди нередко промахиваются. Высокий stylize при одновременно высоком chaos — это гремучая смесь, которая почти гарантированно уведёт генерацию в непредсказуемое русло. Лучше менять по одному параметру за раз, отслеживая, как именно он влияет на результат. Тем более что каждая версия модели реагирует на те же значения чуть иначе — то, что работало в v5, может дать совершенно другой эффект в v6.

Постобработка: нужна ли она?

Честно? Почти всегда — да. Даже самый удачный кинематографичный кадр из Midjourney выигрывает от лёгкой доработки в Lightroom, Photoshop или DaVinci Resolve (если речь идёт о создании видеоряда из статичных кадров). Апскейл через встроенную функцию Midjourney — первый шаг. Но после него нередко стоит подтянуть контраст, слегка сдвинуть баланс белого, добавить зерно плёнки или виньетирование. Ведь в реальном кинопроизводстве ни один кадр не попадает на экран без цветокоррекции — это же правило касается и нейросетевых генераций. Впрочем, если времени на постобработку нет, грамотно составленный промт с правильными параметрами даёт результат, пригодный к использованию «как есть» (скажем, для раскадровки или мудборда).

Кинематографичный изысканный кадр в Midjourney — это не счастливая случайность и не результат одного волшебного слова. Это сумма десятков осознанных решений: от соотношения сторон и уровня стилизации до конкретного объектива в промте и грамотного использования негативных фильтров. И с каждой новой генерацией рука «набивается», а глаз начинает видеть закономерности. Удачи в экспериментах — пусть нейросеть станет послушным инструментом в руках вашего внутреннего режиссёра.