Сгенерировать красивую картинку в Midjourney — полдела. Ведь довольно часто случается так, что результат нравится по стилю и по настроению, а вот пропорции подкачали. Изображение вышло квадратным, а нужна была горизонтальная обложка для блога. Или наоборот — хотелось вертикальный постер, а нейросеть выдала широкоформатную панораму. Буквально пару лет назад с такой проблемой справиться было практически невозможно: приходилось заново генерировать картинку, подбирая параметры наугад, и молиться, чтобы общая композиция сохранилась. Но сейчас инструменты Midjourney заметно повзрослели, и менять размер вместе с соотношением сторон у готового изображения стало куда проще. А начать стоит с понимания того, какие именно механизмы для этого существуют и в чём между ними разница.
Зачем вообще менять пропорции после генерации?
Вопрос кажется наивным, но подводные камни тут встречаются на каждом шагу. Дело в том, что при первой генерации пользователь не всегда представляет, куда именно пойдёт финальное изображение. Сегодня картинка нужна для поста в соцсети, а завтра её же хочется растянуть на баннер сайта. К тому же сам процесс генерации — штука непредсказуемая. Иногда нейросеть выдаёт такой удачный кадр, что жалко с ним расставаться только из-за неподходящего формата. Ну и, конечно же, при работе над коммерческими проектами требования к размерам бывают довольно жёсткими: конкретная ширина в пикселях, строгое соотношение сторон под определённый рекламный слот. Именно поэтому умение трансформировать готовую генерацию без потери качества — навык, который рано или поздно потребуется каждому.
Параметр —ar и его роль
Первое, с чем натыкаешься при работе в Midjourney, — параметр —ar (от английского aspect ratio). Это базовый инструмент, задающий соотношение сторон ещё на этапе промта. Записывается он просто: после текстового описания через пробел добавляется —ar 16:9, или —ar 3:2, или любое другое соотношение. Казалось бы, при чём тут изменение готового изображения? А при том, что понимание работы этого параметра — фундамент для всех дальнейших манипуляций. Без него разобраться в логике Custom Zoom и прочих хитростей будет сложнее.
Стоит отметить один нюанс. Midjourney не воспринимает дробные значения в —ar. Если написать —ar 1.5:1, бот проигнорирует команду или округлит её на своё усмотрение. Поэтому дроби лучше переводить в целые числа: вместо 1.5:1 — 3:2. Мелочь, а экономит нервы.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Custom Zoom — спасательный круг для готовых картинок
Настоящие махинации с размерами начинаются после того, как изображение уже сгенерировано и увеличено (upscaled). Именно на этом этапе появляется кнопка Custom Zoom. Работает она следующим образом: после апскейла под картинкой всплывает ряд опций, среди которых — значок лупы с надписью «Custom Zoom». При нажатии открывается небольшое окно, где можно отредактировать промт и, что самое важное, задать новый параметр —ar и коэффициент зума (—zoom).
Вся суть в том, что Custom Zoom не просто обрезает или растягивает картинку. Нейросеть дорисовывает недостающие области, сохраняя стиль и логику оригинала. Хотелось квадратное фото, а потом понадобился формат 16:9? Через Custom Zoom бот расширит сцену по бокам, добавив фон, элементы окружения и прочие детали. Результат, разумеется, не всегда безупречен — иногда дорисованные фрагменты выглядят чуть иначе по текстуре или освещению. Но в львиной доле случаев разница глазу практически незаметна.
Как именно менять соотношение? В окне Custom Zoom находится строка с промтом, в конце которой уже прописан параметр —zoom (по умолчанию стоит значение 2). Нужно просто дописать или заменить параметр —ar на желаемый. Например, если оригинал квадратный, а требуется вертикальный формат, достаточно указать —ar 9:16 —zoom 2. Бот пересчитает композицию и отрисует расширенную версию. К слову, коэффициент зума влияет на то, насколько «далеко» камера отъедет от исходного кадра: при значении 1 изменение минимальное, а при 2 — картинка заметно «отдалится», открывая больше пространства вокруг оригинального объекта.
Стоит ли использовать Pan вместо Zoom?
Альтернативный путь. После апскейла рядом с Custom Zoom появляются стрелки — вверх, вниз, влево, вправо. Это функция Pan. Она позволяет расширять изображение в одном конкретном направлении, и нейросеть дорисовывает новый фрагмент только с выбранной стороны. Звучит удобно, но есть ложка дёгтя: соотношение сторон меняется не так предсказуемо, как хотелось бы. Каждое нажатие Pan добавляет примерно 30–50% к длине одной из сторон, и контролировать итоговый формат с точностью до пикселя тут не получится.
Когда же Pan всё-таки выручает? Например, если нужно чуть-чуть расширить горизонт на пейзажной фотографии или добавить «воздуха» над головой персонажа для вертикального формата. Одно-два нажатия — и композиция дышит свободнее. Но для серьёзных трансформаций, когда квадрат превращается в панораму, Custom Zoom подходит несравнимо лучше. Да и результат предсказуемее.
Как работает кнопка Vary (Region)?
Точечная доработка. Функция Vary (Region) не меняет соотношение сторон напрямую, однако нельзя не упомянуть её в контексте работы с готовым изображением. Бывает так: после Custom Zoom нейросеть дорисовала фон, но один участок выглядит неестественно — дерево обрублено, рука персонажа раздвоилась или текстура «поплыла». Именно тогда Vary (Region) творит чудеса. При помощи встроенного инструмента выделения можно обвести проблемную зону и попросить бота перегенерировать только её, оставив всё остальное нетронутым. Это не совсем про изменение размера, но в связке с зумом и панорамированием — довольно мощный инструмент для финальной шлифовки.
Внешние инструменты: нужны ли они?
Многие считают, что встроенных средств Midjourney хватает для любых задач. На самом деле это не совсем так. Дело в том, что Midjourney генерирует изображения с максимальным разрешением около 1024×1024 пикселей (до апскейла), а после увеличения — до 2048×2048 или чуть больше, в зависимости от версии модели. Для поста в социальных сетях этого достаточно с запасом. Но стоит задуматься о печати на большом формате — скажем, плакат 60×90 сантиметров — и пикселей начинает не хватать. Тут на помощь приходят сторонние апскейлеры, работающие на нейронных сетях: Topaz Gigapixel AI, Real-ESRGAN и им подобные. Они увеличивают разрешение в два, четыре, а то и в восемь раз, сохраняя детализацию.
Отдельно стоит упомянуть Photoshop с его функцией Generative Fill (появившейся в 2023 году). Если нейросеть Midjourney дорисовала фон не совсем так, как хотелось, Photoshop позволяет расширить холст и заполнить пустые области при помощи собственного генеративного ИИ от Adobe. Два нейросетевых инструмента в связке дают довольно впечатляющий результат. Впрочем, за подписку на Photoshop кошелёк станет легче, и не каждому обывателю это покажется оправданным вложением.
Какое соотношение сторон выбрать под конкретную задачу?
С этим вопросом сталкивается буквально каждый, кто работает с генеративными изображениями. Для обложки YouTube-видео годится формат 16:9 — классическое широкоэкранное соотношение. Для сторис в Instagram и вертикальных Reels подходит 9:16. Если изображение пойдёт на аватарку или на иконку, лучший вариант — стандартный квадрат 1:1. А вот для Pinterest, где вертикальные пины привлекают больше внимания, стоит попробовать 2:3 или даже 3:5. Кстати, для кинематографичных кадров, которые имитируют широкоэкранное кино, неплохо работает 21:9 — тот самый ультраширокий формат, приковывающий внимание зрителя. Ведь именно пропорции кадра задают настроение и направляют взгляд.
Нюансы при смене пропорций: на что обратить внимание
Первый подводный камень — композиция. При переходе от квадрата к вытянутому формату центральный объект может «потеряться» на фоне дорисованных элементов. Нейросеть не всегда понимает, что именно было смысловым центром исходной картинки, и заполняет новое пространство тем, что считает логичным. Иногда это выглядит гармонично, а иногда — удручающе.
Второй нюанс связан с текстовым промтом. При использовании Custom Zoom промт можно редактировать. И тут довольно часто всплывают ошибки: пользователь меняет —ar, но забывает скорректировать описание сцены. А ведь если в оригинальном промте было написано «портрет крупным планом», а формат изменился на 16:9, нейросеть начнёт «выдумывать», чем заполнить боковые области. Не стоит забывать подстраивать текст под новые пропорции. Если расширяется горизонт — полезно добавить описание окружения: «лес на заднем плане», «городская улица», «горы вдали».
Ну, а третий момент — контроль качества. После каждой трансформации стоит приблизить изображение и внимательно осмотреть границы между оригинальной частью и дорисованной. Швы видны не всегда, но при печати или на большом экране они могут бросаться в глаза. Если шов заметен — Vary (Region) придёт на помощь.
Пошаговый сценарий: от квадрата к панораме
Разобрать весь процесс проще всего на конкретном примере. Допустим, был сгенерирован квадратный кадр с горным пейзажем. Первым делом нужно выбрать понравившееся изображение из сетки 2×2 и нажать соответствующую кнопку апскейла (U1, U2, U3 или U4). После этого бот выдаст увеличенную версию одной картинки, а под ней появится панель инструментов. Далее — нажатие на Custom Zoom. В открывшемся окне в конце промта прописывается —ar 16:9 —zoom 1.5. Коэффициент зума 1.5 выбран намеренно — при значении 2 камера слишком сильно «отъедет», и горы из центра кадра превратятся в крошечные холмики на горизонте. После отправки команды нейросеть генерирует новую версию: слева и справа появляются дополнительные горные хребты, небо расширяется, а общий добротный стиль оригинала сохраняется.
Если результат устраивает — отлично. Если нет — можно повторить Custom Zoom с другими значениями или слегка подправить промт. Безусловно, с первого раза идеальная панорама получается не всегда. Но две-три итерации обычно хватает.
Разница между версиями Midjourney
Здесь тоже есть о чём поговорить. В ранних версиях (до v4 включительно) возможности постобработки были скудными. По сути, после генерации можно было только увеличить картинку и сделать незначительные вариации. С приходом версии 5 ситуация изменилась кардинально: появился Custom Zoom, Pan и Region Vary. А в версии 5.2, вышедшей летом 2023 года, эти инструменты были доработаны — качество дорисовки заметно выросло, да и скорость генерации стала повыше. В шестой версии (v6) разработчики ещё сильнее улучшили когерентность стиля при расширении, так что швы между оригиналом и дорисованными участками практически исчезли. Тем более что актуальные обновления продолжают выходить, и с каждым релизом инструментарий становится всё гибче.
Чем отличается Upscale от изменения соотношения сторон?
Путаница между этими понятиями — довольно распространённая история среди новичков. Upscale — это увеличение разрешения (количества пикселей) без изменения пропорций. Была картинка 512×512, стала 1024×1024. Соотношение сторон осталось 1:1, просто детализация выросла. А вот изменение aspect ratio — это именно трансформация формата: квадрат превращается в прямоугольник, широкий кадр — в вертикальный. Upscale и смена пропорций — два совершенно разных действия, хотя оба относятся к «работе с размером». Не стоит их путать, иначе результат окажется далёким от ожиданий.
Хитрости, которые экономят время
Опытные пользователи Midjourney со временем вырабатывают свои приёмы. Один из самых полезных — генерировать изначально с чуть бо́льшим «запасом» пространства, чем нужно. Если знаешь, что финальная картинка пойдёт на баннер 16:9, а по задумке хочется сначала увидеть сцену целиком, — стоит начать с формата 3:2 или 4:3. Потом через Custom Zoom довести до нужной пропорции проще, чем пытаться растянуть жёсткий квадрат в два раза по горизонтали.
Ещё один скрупулёзный приём — сохранять seed оригинального изображения. Seed — это числовой идентификатор генерации, своего рода «ДНК» конкретной картинки. Чтобы узнать его, нужно отправить реакцию-конверт (✉️) на сообщение бота в Discord, и Midjourney пришлёт seed в личные сообщения. Зная seed и промт, можно воссоздать практически идентичное изображение с другими пропорциями, просто добавив нужный —ar и параметр —seed. Это не гарантирует стопроцентного совпадения, но сходство будет внушительным.
Когда изменение пропорций не спасает
Случается и такое. Если исходная генерация содержит очень плотную композицию — скажем, портрет лица во весь кадр без полей, — то расширение через Custom Zoom или Pan скорее всего «напридумает» лишнего. Появятся плечи, которых не было, или фон, который выглядит инородно. В подобных случаях проще перегенерировать картинку с нуля, сразу указав правильный —ar. Да, это обидно. Но иногда честная переделка экономит больше времени, чем многократная доработка неудачной трансформации.
То же касается изображений с мелким текстом, логотипами или сложными симметричными узорами. Нейросеть при расширении может исказить надпись или нарушить симметрию, и исправить это средствами Midjourney будет затруднительно. Тут уж без Photoshop или Illustrator никак.
Работа с размерами в Midjourney — процесс не сложный, но кропотливый. Инструменты развиваются стремительно, и то, что ещё год назад казалось невозможным, сегодня делается парой кликов. Главное — не бояться экспериментировать с параметрами —ar и —zoom, следить за композицией и при необходимости подключать внешние инструменты. Удачи в генерациях — пускай каждая картинка получается именно того размера, который нужен, и ни пикселем меньше.

