Как создавать различные варианты одного изображения в интерфейсе Midjourney

Ни одна нейросеть не угадывает замысел автора с первого раза — и Midjourney тут не исключение. Первая генерация почти всегда оказывается лишь черновиком, отправной точкой, от которой до готового результата ещё далеко. Кто-то тратит на доработку пять минут, а кто-то мучается часами, пересоздавая промт снова и снова. Ведь дело не столько в самом тексте запроса, сколько в умении работать с тем, что нейросеть уже выдала. Довольно часто обыватель просто не знает, какие инструменты спрятаны буквально под кнопками интерфейса. А между тем именно вариации — тот самый спасательный круг, который позволяет из одного посредственного изображения вытянуть десяток совершенно разных, порой грандиозных результатов. Но чтобы этот механизм по-настоящему заработал, стоит разобраться в нюансах.

Все топовые нейросети в одном месте

Что происходит после первой генерации?

Четыре картинки. Именно столько выдаёт Midjourney в ответ на каждый промт — сетку из четырёх миниатюр, расположенных в квадрате. Под этой сеткой тут же появляются кнопки, и вот тут у новичка глаза разбегаются. Кнопки с буквой U (от английского upscale) увеличивают выбранное изображение до полного разрешения, а кнопки с буквой V — как раз и запускают создание вариаций. Нажатие на V1, V2, V3 или V4 берёт соответствующую миниатюру за основу и генерирует четыре новых изображения, похожих на оригинал по композиции и настроению, но отличающихся в деталях. Это и есть львиная доля всей магии вариаций — нейросеть не начинает с чистого листа, а отталкивается от уже созданного образа.

Стоит отметить один важный нюанс: степень отличий между вариациями напрямую зависит от выбранного режима. И об этом стоит поговорить отдельно.

Режимы вариаций: тонкая и грубая настройка

До определённого момента Midjourney предлагала только один тип вариаций — довольно заметные изменения, при которых менялась не только текстура или цвет, но и поза персонажа, расположение объектов, общий антураж сцены. Сейчас же инструмент стал гибче. В настройках (вызываются командой /settings) можно переключаться между двумя режимами. Первый — High Variation Mode — работает по старому принципу: каждая новая вариация ощутимо отличается от исходника. Второй — Low Variation Mode — действует куда аккуратнее, сохраняя композицию почти нетронутой и подкручивая лишь мелкие детали: оттенок освещения, фактуру ткани, выражение лица.

Все лучшие нейросети мира теперь в твоём кармане! ⚡

Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.

Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL

Какой из них выбрать? Зависит от задачи. Если первоначальная генерация попала в настроение, но хочется чуть-чуть «подвинуть» палитру или сменить текстуру фона — Low Variation Mode станет лучшим выбором. А вот когда общая идея нравится, но конкретная реализация не цепляет, имеет смысл переключиться на High Variation Mode и дать нейросети больше свободы. К слову, переключаться между режимами можно прямо в процессе работы, не теряя историю генераций.

Кнопка Vary (Strong) и Vary (Subtle)

После того как изображение увеличено через U, под ним появляется ещё одна пара кнопок — Vary (Strong) и Vary (Subtle). Это, по сути, те же самые режимы вариаций, только применяемые точечно, к конкретной уже увеличенной картинке. И здесь начинается самое интересное. Дело в том, что нажатие Vary (Subtle) сохраняет до 80–85% исходного изображения, меняя лишь незначительные элементы. Подводные камни тут в том, что «незначительные» для нейросети и для человеческого глаза — понятия разные. Иногда Midjourney решает поменять именно тот элемент, который вас устраивал, оставив нетронутым то, что хотелось бы исправить.

Vary (Strong) работает радикальнее — перерисовывает до 40–50% изображения, сохраняя общий силуэт и цветовую гамму. Это мощный инструмент, но обращаться с ним нужно скрупулёзно. Не стоит жать на эту кнопку, если результат и так устраивает на девяносто процентов. Ведь нейросеть может «улучшить» именно те оставшиеся десять, которые вы трогать не планировали. Однако для творческого поиска, когда хочется увидеть максимум интерпретаций одной идеи, Vary (Strong) — настоящий кладезь возможностей.

Vary (Region) — локальная перерисовка

А теперь — изюминка. Инструмент Vary (Region) появился в Midjourney сравнительно недавно и сразу стал одним из самых востребованных. Вся суть в том, что он позволяет выделить конкретную область на увеличенном изображении и перегенерировать только её, не трогая остальное. Приковывает внимание сам интерфейс: после нажатия на кнопку открывается встроенный редактор с инструментами выделения — прямоугольной рамкой и кистью свободной формы. Закрасил нужную зону, нажал «Submit» — и через несколько секунд получил четыре варианта, где изменилась только выделенная область.

Звучит просто? На практике есть нюансы. Во-первых, размер выделенной области влияет на результат: если закрасить слишком маленький фрагмент (менее 20% от общей площади), нейросеть может проигнорировать изменения или внести совсем микроскопические правки. Во-вторых, к выделению можно добавить текстовый промт — и тогда Midjourney попытается вписать новый объект или стиль именно в выбранную зону. Например, если на картинке пустой стол, достаточно выделить его поверхность и написать в промте «a vase with sunflowers» — и нейросеть аккуратно разместит вазу с подсолнухами, сохранив освещение и перспективу. Впрочем, идеального попадания с первого раза ждать не стоит — обычно требуется две-три попытки.

Как пересоздать саму сетку?

Кнопка с синим значком перезагрузки (🔄) под сеткой из четырёх миниатюр делает простую вещь — полностью пересоздаёт все четыре изображения по тому же самому промту. Казалось бы, ничего особенного. Но этот добротный инструмент оказывается незаменимым в ситуациях, когда ни одна из четырёх первоначальных генераций не зацепила. Вместо того чтобы вручную переписывать промт и отправлять его заново, достаточно одного клика. К тому же каждая пересозданная сетка расходует ровно столько же ресурсов, сколько и первая генерация, — никакой переплаты.

Нужно отметить, что результат пересоздания будет отличаться от оригинала полностью. Это не вариация, а именно новая генерация с тем же текстовым вводом. Дело в том, что Midjourney каждый раз использует случайный сид (seed) — числовое значение, определяющее начальную точку генерации. И если сид не зафиксирован вручную, результаты каждый раз окажутся совершенно другими.

Параметр —seed и его роль в вариациях

Сид заслуживает отдельного разговора. Каждой генерации в Midjourney присваивается числовой идентификатор — число от 0 до 4294967295. Получить сид любого созданного изображения можно через реакцию с эмодзи ✉️ в Discord: бот пришлёт в личные сообщения информацию о генерации, включая номер сида. А дальше начинаются махинации с контролируемыми вариациями.

Зафиксировав сид через параметр —seed в промте, можно добиться того, чтобы изменения в тексте запроса приводили к предсказуемым, а не хаотичным изменениям в картинке. Например, промт «a medieval castle on a hill —seed 12345» всегда выдаст одну и ту же базовую композицию. Стоит изменить «medieval» на «futuristic» — и замок преобразится, но холм, ракурс и освещение останутся прежними. Это довольно мощный приём для тех, кто хочет сравнить влияние отдельных слов промта на финальный результат. Ну и, конечно же, для создания серий однотипных изображений с разными деталями — например, один и тот же персонаж в разных костюмах.

Стоит ли комбинировать подходы?

Безусловно. На самом деле самые впечатляющие результаты рождаются именно на стыке нескольких инструментов. Типичный сценарий выглядит так: сначала генерация по промту, затем выбор лучшей миниатюры через V, потом увеличение через U, далее пара проходов через Vary (Subtle) для тонкой доводки, и наконец — точечная правка проблемной зоны через Vary (Region). Весь процесс занимает от пяти до пятнадцати минут, но результат отличается от первоначальной генерации настолько разительно, что сторонний наблюдатель не поверит — это одна и та же работа.

К слову, не стоит забывать и про параметр —chaos. Он задаётся числом от 0 до 100 и определяет, насколько сильно четыре миниатюры в сетке будут отличаться друг от друга. При —chaos 0 все четыре картинки окажутся довольно похожими, а при —chaos 100 — максимально непредсказуемыми. Этот параметр особенно хорош на ранних стадиях творческого поиска, когда конкретного видения ещё нет и хочется увидеть как можно больше разных трактовок одного промта. Но на финальных этапах доработки лучше снижать хаос до минимума — иначе нейросеть уведёт результат совсем не туда.

Работа с промтом как инструмент вариативности

Сами кнопки — лишь половина истории. Вторая половина — в умении менять промт так, чтобы получить нужную вариацию без полной переделки. Один из самых недооценённых приёмов — добавление или удаление стилевых суффиксов. Если исходный промт звучал как «a cozy bookstore interior, warm lighting», достаточно дописать «in the style of Wes Anderson» или «cinematic, 35mm film» — и атмосфера изменится кардинально, а структура композиции при этом сохранится. Тем более что Midjourney прекрасно понимает отсылки к режиссёрам, фотографам и художественным направлениям.

Ещё один приём — работа с весами через двойное двоеточие. Конструкция вроде «forest::2 cabin::1» говорит нейросети, что лесу нужно уделить вдвое больше внимания, чем хижине. Меняя соотношение весов, можно получить десятки вариаций одного сюжета без переписывания самого промта. И это не бьёт по бюджету — каждая генерация расходует стандартное количество GPU-минут, независимо от сложности весовой конструкции. Да и сами веса — инструмент довольно интуитивный, освоить его можно за пару экспериментов.

Чем отличается Remix Mode?

Отдельно стоит упомянуть режим Remix. Активируется он всё через те же /settings и меняет поведение кнопок V принципиальным образом. Без Remix нажатие на V просто создаёт вариации по тому же промту. А с включённым Remix каждый раз при нажатии V появляется всплывающее окно, где можно отредактировать текст запроса перед генерацией. Это значит, что можно взять понравившуюся композицию, поменять в промте «day» на «night» — и получить ту же сцену, но в ночном освещении. Или сменить «oil painting» на «pencil sketch» — и вместо живописного полотна увидеть карандашный набросок с тем же сюжетом.

Remix — настоящий кладезь для тех, кто работает над серией изображений в едином стиле. Ведь именно он позволяет сохранять «скелет» картинки, меняя только «одежду». Многие считают, что для серийной работы проще каждый раз писать новый промт. Но на самом деле результат получается куда более целостным и согласованным именно через Remix, потому что нейросеть отталкивается от конкретного визуального образа, а не от абстрактного текста.

Подводные камни и типичные ошибки

Первая и самая распространённая ошибка — бездумное нажатие Vary (Strong) на уже почти идеальное изображение. Результат зачастую удручающий: нейросеть ломает то, что было хорошо, и «улучшает» то, что не требовало вмешательства. Вторая ошибка — слишком маленькая область выделения в Vary (Region). Если зона составляет менее пятой части изображения, алгоритм зачастую генерирует артефакты или не вносит видимых изменений. Третья — игнорирование параметра —seed при итеративной работе. Без фиксированного сида каждое изменение промта приводит к полной перетасовке визуала, и сравнивать влияние конкретных слов становится невозможно.

Все топовые нейросети в одном месте

Ну, а четвёртая — пожалуй, самая неоднозначная — чрезмерное увлечение вариациями. Когда перед глазами мелькают десятки похожих генераций, глаз «замыливается», и выбрать лучшую становится сложнее, чем из первоначальных четырёх. Не стоит гнаться за количеством ради количества. Иногда трёх-четырёх итераций вполне достаточно, чтобы добраться до нужного результата.

Практический сценарий от начала до конца

Ладно, от теории к практике. Допустим, задача — создать иллюстрацию уютной кофейни в осеннем городе. Начинать стоит с довольно общего промта: «a cozy autumn cafe on a European street, warm light, fallen leaves, watercolor style —ar 16:9 —chaos 50». Параметр —chaos 50 на старте даст разброс в стилистике — из четырёх миниатюр хотя бы одна наверняка зацепит. Далее — нажатие V на понравившемся варианте. Четыре новых интерпретации, уже ближе к нужному настроению.

Следующий шаг — увеличение лучшей миниатюры через U. На увеличенном изображении бросается в глаза, что вывеска кофейни выглядит нечитаемо (классическая проблема Midjourney с текстом), а цвет листвы слишком оранжевый — хочется больше бордового. Включаем Remix Mode, нажимаем Vary (Subtle) и в появившемся окне дописываем «burgundy and crimson leaves» вместо просто «fallen leaves». Генерация — и палитра листвы уже другая, а вывеска по-прежнему не идеальна. Тогда выделяем вывеску через Vary (Region), в промте указываем «a wooden sign reading CAFÉ» — и после пары попыток получаем вполне читаемую надпись. Перевоплощение завершено.

Освоив этот добротный арсенал инструментов, можно превратить каждую генерацию в точку старта для целой галереи. Не стоит бояться экспериментов — ведь именно в итерациях рождаются самые колоритные, самобытные работы. Удачи в творческом поиске, и пусть каждая вариация приближает вас к идеальному изображению!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *