Любой, кто хоть раз генерировал картинки через нейросеть, наверняка сталкивался с одной и той же досадной ситуацией: результат вроде бы хорош, но пропорции совершенно не те. То квадрат вместо горизонтальной панорамы, то вертикальная «простыня» там, где нужен был компактный баннер. Midjourney – инструмент мощный, спору нет, однако без понимания его внутренней логики львиная доля сгенерированных изображений отправляется прямиком в корзину. А ведь дело зачастую не в качестве промта, а в банальном незнании параметров, отвечающих за соотношение сторон и итоговое разрешение. Но чтобы не тратить время и нервы впустую, стоит разобраться в нюансах ещё до первого запроса.
Что вообще понимать под «форматом» в Midjourney?
Тут сразу нужно внести ясность. Когда обыватель говорит «формат», он чаще всего подразумевает расширение файла — PNG, JPEG и тому подобное. В контексте же Midjourney под форматом обычно имеют в виду совсем другое: соотношение сторон (aspect ratio) готовой картинки. Именно этот параметр определяет, будет ли изображение квадратным, вытянутым по горизонтали или по вертикали. Дело в том, что сама нейросеть отдаёт результат исключительно в формате PNG (через веб-интерфейс) или в JPEG (при скачивании через Discord), и повлиять на это напрямую в момент генерации пользователь не может. А вот пропорции — совсем другая история. Их-то как раз и задаёт специальный параметр, о котором речь пойдёт ниже.
Параметр —ar и его синтаксис
Главный рычаг управления пропорциями — команда —ar (сокращение от aspect ratio), которую нужно дописывать в конце промта. Выглядит это довольно просто: после текстового описания через пробел ставится —ar X:Y, где X — ширина, а Y — высота. Хочется получить широкоэкранную панораму? Тогда подойдёт —ar 16:9. Нужна вертикальная картинка для сторис в соцсетях? Выручит —ar 9:16. Квадрат, который Midjourney генерирует по умолчанию, — это —ar 1:1, и прописывать его отдельно нет смысла, разве что для наглядности.
Казалось бы, всё элементарно. Но подводные камни тут всё-таки есть. Во-первых, нейросеть не принимает дробные значения — только целые числа. Во-вторых, слишком экстремальные соотношения (вроде 1:5 или 7:1) могут привести к непредсказуемым результатам: композиция «поплывёт», объекты растянутся, а мелкие детали и вовсе потеряются. Оптимальный диапазон, с которым Midjourney работает стабильно, — от 1:2 до 2:1. Впрочем, пятая версия модели (V5 и новее) заметно лояльнее к широким пропорциям, чем её предшественники.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Какие пропорции выбрать под конкретную задачу?
С задачей нужно определиться заранее. Ведь от назначения картинки зависит буквально всё — и ориентация, и степень детализации, и даже стиль. Для обложек YouTube-роликов обычно берут —ar 16:9, потому что именно такой формат площадка запрашивает при загрузке превью. Для постов в Instagram* (запрещённая в РФ организация) квадратный 1:1 по-прежнему остаётся классикой, хотя и вертикальный 4:5 смотрится в ленте ничуть не хуже. А вот для Pinterest-пинов стоит задуматься о более вытянутом 2:3 — такие изображения буквально приковывают внимание в потоке, потому что занимают больше места на экране.
Отдельно стоит упомянуть печатную продукцию. Если картинка готовится для плаката или баннера, нет смысла гнаться за нестандартными пропорциями — проще сгенерировать в ближайшем подходящем формате, а потом довести до нужного размера в графическом редакторе. К слову, для обложек книг добротный вариант — —ar 2:3 или —ar 3:4, что примерно соответствует реальным пропорциям переплёта.
Как увеличить разрешение готового изображения?
Размер — ещё один щепетильный вопрос. Midjourney генерирует изображения с разрешением, которое зависит от версии модели и выбранного режима. В стандартном режиме V5 это примерно 1024×1024 пикселей для квадрата, и пропорциональные значения для других соотношений. Звучит неплохо, но для крупноформатной печати или детализированных фонов этого маловато.
Первый инструмент — встроенный апскейл. После генерации под сеткой из четырёх вариантов появляются кнопки U1, U2, U3, U4. Нажатие на любую из них «вытягивает» выбранный вариант до максимального разрешения, которое допускает текущая модель. В версиях V5 и V6 апскейл поднимает картинку до 2048 пикселей по большей стороне, а иногда и выше — зависит от заданных пропорций. Но тут есть нюанс: сам по себе апскейл не добавляет новых деталей. Он скорее «растягивает» имеющееся с минимальными потерями.
Второй путь — внешние сервисы апскейлинга. Topaz Gigapixel AI, Real-ESRGAN и подобные им инструменты умеют увеличивать разрешение в два, четыре, а то и в восемь раз, при этом «дорисовывая» детали с помощью собственных алгоритмов. Результат довольно впечатляющий: картинка, сгенерированная в 1024×1024, после обработки превращается во внушительные 4096×4096 без заметной потери резкости. Да и кошелёк не сильно пострадает — бесплатных решений на рынке хватает.
Стоит ли использовать параметр —quality?
Многие путают размер изображения с его качеством. А ведь это совершенно разные вещи. Параметр —q (или —quality) влияет не на разрешение в пикселях, а на количество вычислительных шагов, которые нейросеть тратит на генерацию. По умолчанию стоит значение 1. Можно задать —q 0.25 или —q 0.5 — тогда картинка сгенерируется быстрее и съест меньше GPU-минут, но детализация будет заметно ниже. Обратная крайность, —q 2, даёт более проработанную текстуру, однако расход ресурсов удваивается.
На практике разница между —q 1 и —q 2 далеко не всегда бросается в глаза, особенно если изображение потом всё равно ужимается для веба. Тем более что GPU-минуты на платных подписках — ресурс конечный. Ну и, конечно же, не стоит забывать: параметр quality никак не меняет соотношение сторон и физический размер файла. Это исключительно про «внутреннюю» проработку деталей.
Как подогнать изображение под нестандартный размер?
Задача не из лёгких. Допустим, нужен баннер ровно 1200×628 пикселей — стандарт для рекламных объявлений в Facebook*. Midjourney не позволяет задать точное разрешение в пикселях напрямую. Однако обходной манёвр существует: достаточно вычислить соотношение сторон из нужных размеров. Для 1200×628 это примерно 1.91:1, что можно округлить до —ar 191:100 или упростить до —ar 19:10. На самом деле Midjourney принимает даже такие «некруглые» значения — главное, чтобы числа оставались целыми.
После генерации картинку с правильными пропорциями останется только масштабировать до точных пиксельных размеров в любом редакторе — хоть в Photoshop, хоть в бесплатном GIMP, хоть в онлайн-сервисе вроде Canva. Процесс занимает буквально пару секунд, потому что пропорции уже совпадают и обрезка не нужна. К тому же, при правильно подобранном aspect ratio композиция не «едет» — все важные объекты остаются на своих местах.
Функция Zoom Out и расширение холста
В обновлениях 2023–2024 года команда Midjourney добавила довольно интересную функцию — Zoom Out. Суть вот в чём: после апскейла изображения под ним появляются кнопки «Zoom Out 2x» и «Zoom Out 1.5x», а также «Custom Zoom». Нажатие на них не просто уменьшает масштаб — нейросеть дорисовывает окружение вокруг исходной картинки, сохраняя стиль и логику композиции. Получается эффект «отодвинутой камеры».
А при выборе «Custom Zoom» открывается окно, где можно не только задать коэффициент увеличения холста, но и изменить промт, добавив описание того, что должно появиться на расширенных участках. И — внимание — здесь же можно прописать новый —ar. Это, пожалуй, самый гибкий способ превратить квадратную картинку в горизонтальную панораму без потери центрального объекта. Ведь при обычной смене пропорций через повторную генерацию нейросеть создаст совершенно новое изображение, а Zoom Out сохраняет «ядро» нетронутым.
Версии модели и их влияние на размер
Не стоит забывать, что разные версии Midjourney ведут себя по-разному. Ранние модели (V1–V3) были довольно ограничены в поддерживаемых пропорциях и максимальном разрешении. В V4 ситуация улучшилась: допустимый диапазон aspect ratio расширился, а апскейл стал давать более чистую картинку. Но настоящий скачок произошёл с выходом V5, а затем и V6. Эти версии научились корректно «раскладывать» композицию даже в вытянутых форматах вроде 21:9, что раньше приводило к артефактам и дублированию объектов.
К слову, переключиться между версиями можно прямо в промте, дописав —v 5 или —v 6 в конце. Или же задать версию по умолчанию через команду /settings в Discord. Это существенный нюанс, о котором новички часто не подозревают: один и тот же промт с одинаковым —ar в V4 и V6 даст заметно отличающийся результат — и по качеству, и по тому, как нейросеть распорядится предоставленным ей «холстом».
Что насчёт формата файла при скачивании?
Вот тут всё куда прозаичнее, чем хотелось бы. Midjourney не даёт выбрать выходной формат. Через веб-интерфейс изображения сохраняются в PNG, через Discord — тоже в PNG (апскейлнутые) или в JPEG с высоким битрейтом (сетка из четырёх вариантов). Конвертировать в WebP, TIFF, SVG или любой другой формат придётся уже на стороне пользователя.
Впрочем, для большинства задач PNG — выбор более чем достаточный. Он сохраняет полную палитру без артефактов сжатия, да и прозрачный фон поддерживает (хотя Midjourney пока не генерирует картинки с альфа-каналом). Если же файл получается слишком тяжёлым — а при разрешении 2048×2048 PNG легко весит пять-шесть мегабайт — то конвертация в JPEG с качеством 85–90% сократит объём раза в три-четыре без видимых потерь. Онлайн-конвертеров для этой операции в сети — кладезь неисчерпаемый.
Тонкости работы с —ar в режиме —tile
Отдельная история — генерация бесшовных текстур. Параметр —tile заставляет Midjourney создавать паттерн, который можно «замостить» без видимых стыков. И здесь соотношение сторон играет критическую роль. Дело в том, что для бесшовной укладки лучше всего подходит квадратный формат 1:1. При использовании —tile с нестандартными пропорциями стыки могут оказаться заметными, потому что алгоритм «сшивания» краёв оптимизирован именно под квадрат.
Однако если текстура нужна для конкретной поверхности — скажем, для горизонтального фартука на кухне — то можно сгенерировать квадратный тайл, а потом в Photoshop или Substance Designer размножить его на плоскости нужной формы. Результат получается аккуратнее, чем при попытке «растянуть» бесшовный паттерн через aspect ratio прямо в Midjourney.
Ошибки, которые всплывают чаще всего
Первая и самая распространённая — пробел между двумя тире и буквами «ar». Промт — ar 16:9 (с пробелом после тире) нейросеть просто проигнорирует, и на выходе окажется стандартный квадрат. Правильно — слитно: —ar 16:9. Вторая частая ошибка — использование десятичных дробей. Запись —ar 1.5:1 не сработает; нужно переводить в целые числа, то есть —ar 3:2. Ну, а третья ложка дёгтя — попытка задать aspect ratio через «x» вместо двоеточия. Запись —ar 16×9 тоже не распознаётся.
К тому же, не стоит перебарщивать с количеством параметров в одном промте. Бывает, что новичок вписывает —ar, —q, —s (stylize), —c (chaos) и ещё пару-тройку модификаторов — а потом удивляется странному результату. На самом деле некоторые параметры взаимодействуют друг с другом неочевидным образом, и итог может оказаться далёким от ожиданий. Начинать лучше с минимального набора — промт плюс —ar — и добавлять модификаторы по одному, отслеживая разницу.
Быстрая шпаргалка по популярным пропорциям
Для тех, кому нужна конкретика без лишних раздумий. Квадрат 1:1 — посты в социальных сетях и аватарки. Формат 4:3 — классическое соотношение, знакомое по старым телевизорам и презентациям. Широкий экран 16:9 — обложки для YouTube, десктопные обои и любой контент, который будет отображаться на мониторе. Вертикальный 9:16 — сторис, рилсы, TikTok-видео. Формат 2:3 и 3:4 — обложки книг и Pinterest. Ну и ультраширокий 21:9 — кинематографическая панорама, эффектные заставки и концепт-арт.
Разумеется, это далеко не полный перечень. Midjourney принимает практически любые целочисленные соотношения, так что простор для экспериментов — грандиозный. Но именно перечисленные варианты покрывают девяносто процентов типичных пользовательских сценариев, и отталкиваться стоит именно от них.
Освоив всего один параметр — —ar — и научившись подбирать нужные пропорции под конкретную задачу, вы сэкономите массу времени на постобработке. А если к этому добавить грамотный апскейл и понимание того, как версии модели влияют на финальный результат, генерации в Midjourney перестанут быть лотереей и превратятся в предсказуемый рабочий инструмент. Удачи в экспериментах — и пусть каждый сгенерированный кадр попадает точно в цель с первого раза.
