Как изменить формат изображения и соотношение сторон в Midjourney

Львиная доля пользователей, впервые открывших для себя Midjourney, натыкается на одну и ту же досадную проблему — сгенерированная картинка выглядит шикарно по содержанию, но совершенно не вписывается в нужные рамки. Слишком квадратная для обложки статьи, чересчур вытянутая для аватарки, неподходящая для сторис. И вроде бы нейросеть творит чудеса, а результат всё равно приходится обрезать в стороннем редакторе, теряя при этом половину композиции. Знакомо? Ведь дело в том, что стандартный квадрат 1:1, который Midjourney выдаёт по умолчанию, далеко не всегда совпадает с реальными задачами дизайнера, блогера или маркетолога. Но чтобы не мучиться с кадрированием постфактум, стоит разобраться в настройках формата ещё до генерации.

Все топовые нейросети в одном месте

Что такое соотношение сторон и зачем его менять?

Соотношение сторон — это пропорция ширины к высоте изображения. Не разрешение в пикселях, не физический размер файла, а именно пропорция. Путаница между этими понятиями встречается довольно часто, и на форумах то и дело всплывают вопросы в духе «почему я задал 16:9, а картинка маленькая». Вся суть в том, что параметр —ar (сокращение от aspect ratio) управляет только формой холста, но не его итоговым разрешением. Квадрат, вытянутый горизонтальный прямоугольник, узкая вертикальная полоска — вот что меняется. А вот количество пикселей на выходе зависит от версии модели и режима качества.

Зачем вообще об этом задумываться? Да хотя бы потому, что каждая платформа и каждый носитель диктуют свои пропорции. Для поста в Instagram* привычнее квадрат или 4:5, для YouTube-превью нужен горизонтальный 16:9, а для пинов на Pinterest — вертикальный формат вроде 2:3. И если генерировать всё в одном квадрате, а потом кромсать, то нейросеть попросту не сможет правильно распределить элементы по кадру. Композиция ведь строится под конкретную форму. К тому же, обрезка после генерации — это потеря деталей, которые алгоритм старательно прорисовывал по краям. Нет смысла выбрасывать то, за что уже заплачено вычислительными мощностями.

Параметр —ar: базовый синтаксис

Начать нужно с самого простого. Параметр —ar дописывается в конец промта через пробел. Выглядит это примерно так: /imagine prompt: a sunset over the ocean, cinematic lighting —ar 16:9. Двоеточие между цифрами — обязательный элемент, без него команда не сработает. Пробел перед двумя дефисами тоже критически важен: Midjourney воспринимает —ar как отдельный флаг, и если прилепить его к последнему слову промта, бот просто проигнорирует параметр. Казалось бы, мелочь. Но именно на таких мелочах спотыкаются новички.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Допустимые значения менялись от версии к версии. В ранних итерациях Midjourney (v3 и ниже) существовали жёсткие ограничения — соотношение не могло превышать 2:1 в любую сторону. Сейчас же, начиная с пятой версии и особенно в v6, рамки значительно расширились. Можно задать и 7:1, и 1:7, хотя на практике такие экстремальные пропорции редко дают эстетически приятный результат. Нейросеть начинает «растягивать» объекты, заполнять пустоты повторяющимися паттернами, да и общая целостность картинки страдает. Довольно разумный потолок для большинства задач — 3:1 или 1:3.

Какие пропорции выбрать под конкретную задачу?

Задача не из лёгких. Ведь форматов существует масса, и универсального рецепта нет. Однако есть проверенные временем ориентиры, от которых стоит отталкиваться. Для горизонтальных десктопных обоев и баннеров сайтов отлично подходит классическое кинематографическое соотношение 16:9. Это же правило касается превью для видеохостингов. А вот для обложки книги или вертикального постера в работу идёт 2:3 — пропорция, близкая к стандартному листу бумаги. Кстати, именно 2:3 часто используют для генерации мокапов, потому что готовая картинка ложится в макет без лишних манипуляций.

Отдельно стоит упомянуть квадрат 1:1. Многие считают его скучным, но на самом деле для аватарок, иконок приложений и карточек товаров он по-прежнему незаменим. Нейросеть при таких пропорциях концентрирует всё внимание на центральном объекте, и композиция получается плотной, насыщенной. Для сторис и рилсов в соцсетях лучше всего работает 9:16 — фактически тот же 16:9, но перевёрнутый вертикально. А если нужно создать панорамный пейзаж для широкоформатной печати, стоит задуматься о 21:9 или даже 3:1. Впрочем, при таком растянутом формате не стоит перебарщивать с детализацией в промте — нейросеть может не справиться с равномерным заполнением кадра.

Версии модели и их особенности

Нюанс, который многие упускают из виду: поведение параметра —ar заметно отличается в зависимости от того, какая версия модели используется. В Midjourney v4 алгоритм довольно агрессивно «обрезал» значения, превышающие 2:1, автоматически подгоняя их под ближайшую допустимую пропорцию. Пользователь мог задать 3:1 и получить фактически 2:1. Без предупреждения. Без ошибки в чате. Просто тихая подмена. Это связано с тем, что ранние модели обучались преимущественно на квадратных и близких к квадрату изображениях, и при сильном отклонении от привычной пропорции качество падало катастрофически.

В v5 и v5.2 ситуация улучшилась: потолок сдвинулся, и пользователи получили возможность работать с более экстремальными форматами. Но настоящий прорыв случился с выходом v6. Сейчас модель уверенно справляется с широким диапазоном пропорций, грамотнее распределяет элементы по кадру и не «теряется» на вытянутых холстах. К тому же, в шестой версии заметно выросло базовое разрешение генерации, что особенно приковывает внимание при работе с нестандартными форматами. И всё же стоит помнить: чем экзотичнее пропорция, тем больше «свободы» у нейросети в интерпретации промта. А свобода не всегда означает предсказуемость.

Можно ли менять формат после генерации?

Короткий ответ — да. Но с оговорками. Midjourney с недавних пор предлагает довольно интересный инструмент — Pan (панорамирование). После того как изображение сгенерировано и увеличено через Upscale, под ним появляются стрелки, позволяющие «дорисовать» картинку влево, вправо, вверх или вниз. По сути, алгоритм расширяет холст, сохраняя стилистику и содержание исходного кадра. Это не то же самое, что задать —ar с нуля, но для корректировки пропорций после генерации — спасательный круг.

Ещё один вариант — Zoom Out. Эта функция «отдаляет камеру», добавляя пространство вокруг уже существующего изображения. Доступны два варианта: уменьшение в полтора раза и в два раза. На выходе получается картинка с теми же центральными элементами, но с расширенным фоном. Нужно отметить, что и Pan, и Zoom Out работают только после апскейла одного из четырёх вариантов в сетке. На самой сетке (grid) эти функции недоступны. Да и результат бывает неоднозначный: нейросеть иногда заполняет пустоту не совсем логичными деталями. Так что лучший совет — задавать нужную пропорцию сразу в промте.

Нестандартные форматы и подводные камни

Соблазн велик. Хочется попробовать 5:1 для эпичной панорамы или 1:4 для узкого вертикального баннера. И технически Midjourney это позволит. Но на практике результат зачастую разочаровывает. Дело в том, что при слишком вытянутых пропорциях алгоритм начинает «клонировать» фрагменты, заполняя длинные стороны холста повторяющимися элементами. Деревья множатся, облака дублируются, а лица (если речь о портрете) вытягиваются до неузнаваемости. Зрелище, мягко говоря, удручающее.

Есть и ещё один подводный камень — дробные значения. Midjourney принимает только целые числа в параметре —ar. Написать —ar 1.5:1 не получится, бот выдаст ошибку или проигнорирует флаг. Если нужна пропорция 1.5:1, стоит перевести её в целые числа — 3:2. Это же касается и других «неудобных» дробей: 1.77:1 превращается в 16:9, а 1.33:1 — в 4:3. Математика элементарная, но в спешке о ней забывают. И потом недоумевают, почему картинка вышла квадратной, хотя «вроде бы всё прописал».

Как совмещать —ar с другими параметрами?

Midjourney — кладезь настроек, и параметр соотношения сторон прекрасно уживается с остальными флагами. Вот только порядок их размещения в промте вызывает споры. На самом деле, порядок параметров после текста промта не имеет значения для бота. Можно написать —ar 16:9 —v 6 —q 2, а можно —v 6 —ar 16:9 —q 2 — результат будет идентичным. Но для собственного удобства стоит выработать привычку: сначала версия модели, потом качество, потом соотношение сторон, потом стилизация. Это помогает не потеряться в длинных промтах.

Отдельного внимания заслуживает взаимодействие —ar с параметром —tile, который генерирует бесшовные текстуры. При использовании —tile стоит аккуратнее подходить к пропорциям: квадратный формат 1:1 даёт наиболее предсказуемый тайлинг, а вот вытянутые соотношения могут привести к заметным швам при стыковке. Кроме того, параметр —no (негативный промт) никак не влияет на формат, но сильно влияет на то, чем нейросеть заполняет расширенное пространство холста. Если при широком формате на фоне появляются нежелательные объекты, негативный промт творит чудеса.

Стоит ли использовать сторонние инструменты для кадрирования?

Многие после генерации всё равно открывают Photoshop или Figma и начинают кромсать картинку под нужный размер. Разумеется, никто не запрещает. Но тут важно понять одну вещь: Midjourney выстраивает композицию под тот формат, который задан в промте. Если нейросеть «знает», что холст горизонтальный, она расположит главный объект с учётом этих пропорций — сместит к правилу третей, оставит воздух по бокам, выстроит линию горизонта. А если сгенерировать квадрат и потом обрезать его до 16:9, вся эта композиционная работа пойдёт насмарку.

Впрочем, бывают ситуации, когда без стороннего редактора не обойтись. Например, клиенту нужна картинка строго 1200×628 пикселей для рекламного баннера в Facebook*. Midjourney не позволяет задать точное разрешение в пикселях — только пропорцию. В таком случае стоит подобрать ближайшее соотношение (для 1200×628 это примерно 1.91:1, то есть почти 2:1), сгенерировать изображение, а затем аккуратно масштабировать в графическом редакторе. Ну и, конечно же, апскейлеры вроде Topaz Gigapixel или встроенный Upscale в самом Midjourney помогут дотянуть разрешение до нужных значений без потери резкости.

Лайфхаки для работы с форматами

За несколько месяцев активной работы с Midjourney накапливается собственная добротная библиотека «рабочих» промтов, и в ней прослеживаются закономерности. Во-первых, для портретов лучше всего срабатывают вертикальные форматы 3:4 и 2:3 — лицо получается крупным, а фон не оттягивает на себя внимание. Во-вторых, для архитектурных визуализаций и интерьеров предпочтительнее горизонтальные 16:9 или 3:2, потому что глаз привык воспринимать помещения именно в таких пропорциях. Ну и, наконец, для абстрактных текстур и паттернов квадрат 1:1 остаётся золотым стандартом — минимум сюрпризов при тайлинге и вёрстке.

Ещё одна хитрость, о которой мало кто пишет: параметр —ar можно комбинировать с указанием камеры и объектива в самом промте. Если написать shot on 35mm lens, wide angle —ar 21:9, нейросеть «поймёт», что нужна широкоугольная панорама, и заполнит вытянутый кадр гораздо осмысленнее, чем если просто задать пропорцию без подсказки. Это связано с тем, что модель обучена на миллионах фотографий с EXIF-метаданными, и упоминание конкретного объектива активирует соответствующие паттерны построения кадра. Довольно изящный трюк, который не сильно ударит по времени, зато ощутимо повысит качество.

Что изменилось с приходом веб-интерфейса?

Буквально год назад единственным способом взаимодействия с Midjourney был Discord. Текстовые каналы, команда /imagine, параметры через двойной дефис — всё это казалось скорее инструментом для энтузиастов, чем для массового рынка. Но с запуском веб-интерфейса (alpha.midjourney.com) ситуация изменилась. Теперь соотношение сторон можно задать через выпадающее меню, не вспоминая синтаксис. Просто выбрал нужную пропорцию из списка — и готово. К слову, в веб-версии доступны и пресеты под популярные платформы, что экономит время.

Однако не стоит думать, что веб-интерфейс полностью заменил Discord. В чате по-прежнему доступен более тонкий контроль: нестандартные пропорции вроде 7:3 или 5:8 в веб-версии пока не предусмотрены, а вот в текстовом промте их можно задать без ограничений. Да и сама скорость работы в Discord чуть выше — за счёт отсутствия «тяжёлого» графического интерфейса. Так что выбор между двумя способами зависит от конкретной задачи. Для быстрых экспериментов — веб. Для скрупулёзной работы с точными параметрами — старый добрый чат.

Все топовые нейросети в одном месте

Распространённые ошибки при смене формата

Одна из самых частых ловушек — путаница между —ar и —aspect. На самом деле оба варианта написания корректны: —aspect — это полная форма параметра, а —ar — сокращённая. Работают одинаково. Но если случайно написать —as или —ratio, бот промолчит и сгенерирует квадрат по умолчанию. Никакой ошибки, никакого предупреждения. Просто не тот результат. Именно поэтому стоит перепроверять команду перед отправкой, особенно когда промт длинный и глаз уже «замылился».

Ещё одна типичная проблема — размещение параметра внутри текста промта, а не после него. Всё, что идёт после двойного дефиса, Midjourney интерпретирует как служебный флаг. А всё, что стоит до первого двойного дефиса — как описание изображения. Если воткнуть —ar 16:9 в середину описания, часть промта после него «отсечётся» и не будет учтена при генерации. И человек потом ломает голову: почему нейросеть проигнорировала половину описания? Ведь все слова были на месте. На самом деле — нет, для бота они оказались «за бортом».

Тем, кто только начинает осваивать Midjourney, стоит выработать простое правило: весь текстовый промт — сначала, все параметры с двойным дефисом — в самом конце. Никаких исключений. Это убережёт от львиной доли досадных ошибок и сэкономит генерации (а значит, и подписку). Удачи в экспериментах с форматами — нужная пропорция способна превратить хорошую картинку в безупречную, и результат точно порадует.

* Instagram и Facebook — продукты компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *