Навигация и интерфейс: что означают кнопки под картинками в Midjourney

Каждый, кто впервые открывает результат генерации в Midjourney, натыкается на россыпь загадочных кнопок прямо под картинкой. Четыре миниатюры, ряды значков с буквами и цифрами, стрелочки — всё это выглядит довольно пёстро и поначалу сбивает с толку. Многие новички просто жмут наугад, а потом удивляются, почему нейросеть выдала совсем не то, чего они ожидали. Ведь за каждой кнопкой скрывается конкретная команда, меняющая поведение генератора — от масштабирования до полной переработки изображения. А вся суть в том, что без понимания этой навигации работа с Midjourney превращается в лотерею, где контроль над результатом стремится к нулю. Но стоит один раз разложить по полочкам логику интерфейса — и инструмент раскроется совершенно с другой стороны.

Все топовые нейросети в одном месте

Первый экран: сетка из четырёх вариантов

После отправки текстового промта Midjourney генерирует так называемый грид — сетку, состоящую из четырёх изображений. Каждая миниатюра пронумерована: левая верхняя — первая, правая верхняя — вторая, левая нижняя — третья, правая нижняя — четвёртая. Нумерация эта не случайна. Именно от неё зависит, какую конкретно картинку затронет следующая операция. Под гридом тут же появляются две строки кнопок, и вот здесь начинается самое интересное. Первая строка отвечает за апскейл, вторая — за вариации. Казалось бы, ничего сложного, но нюансов хватает.

Что делают кнопки U1–U4?

Буква U — от английского upscale. Нажатие на U1 означает: «Возьми первое изображение из сетки и увеличь его». Раньше, ещё в третьей версии движка, апскейл заметно менял детализацию — добавлял текстуры, прорисовывал мелочи, которых на миниатюре попросту не было. Сейчас же, начиная с пятой версии, грид и так формируется в довольно высоком разрешении (1024 на 1024 пикселей в стандартном режиме), поэтому разница менее драматична. И всё же кнопка U остаётся важнейшим инструментом. Дело в том, что именно после апскейла открывается второй набор опций — тот самый расширенный интерфейс, о котором речь пойдёт чуть ниже. Без нажатия U добраться до тонких настроек конкретной картинки не получится.

Кнопки V1–V4: вариации на тему

Рядом с апскейлом расположена вторая линейка — V1–V4. Буква V расшифровывается как variation. Работает она следующим образом: нейросеть берёт выбранное изображение за основу и генерирует четыре новых варианта, сохраняя общую композицию, цветовую гамму и настроение. Это как попросить художника перерисовать эскиз, но чуть-чуть по-другому. К слову, степень «похожести» новых вариаций зависит от параметра —stylize и версии модели. В шестой версии Midjourney вариации получаются ближе к оригиналу, чем в четвёртой, — движок стал точнее считывать композиционный «скелет». А вот при низком значении стилизации результат может уплыть довольно далеко от исходника.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Стоит ли жать V сразу, не раздумывая? Вовсе нет. Лучше сначала внимательно рассмотреть все четыре миниатюры грида. Часто бывает, что третья или четвёртая картинка заметно выигрывает у первой, но глаз «цепляется» за верхний левый угол по привычке. Да и торопиться тут нет смысла — промт никуда не денется, и бот терпеливо подождёт.

Перезапуск генерации: кнопка с круглой стрелкой

Синяя закруглённая стрелка. Обычно она расположена правее всех остальных кнопок в первой строке. Функция у неё максимально простая — повторная генерация того же промта с новым зерном случайности (seed). Каждый раз, когда Midjourney создаёт изображение, алгоритм использует случайное числовое зерно, которое определяет «стартовую точку» для диффузионной модели. Нажатие на стрелку меняет это зерно, и результат оказывается совершенно другим — при абсолютно идентичном текстовом запросе. Это довольно полезная штука, когда ни один из четырёх вариантов не приглянулся, но сам промт менять не хочется. Ведь иногда достаточно «перетасовать колоду», чтобы нейросеть выдала именно то, что нужно.

Что происходит после апскейла?

Вот тут интерфейс раскрывается по-настоящему. После нажатия U-кнопки под увеличенным изображением появляется расширенная панель инструментов. Львиная доля возможностей по доработке картинки сосредоточена именно здесь. Первое, на что стоит обратить внимание, — кнопки Vary (Strong) и Vary (Subtle). Обе запускают вариации, но отличаются степенью отклонения от исходника. Strong — серьёзный «ремонт»: меняются позы, ракурсы, детали одежды, фон. Subtle действует мягче — корректирует нюансы, слегка перестраивает освещение, может поменять текстуру ткани, но общий «каркас» сохраняет. На практике Vary (Subtle) — настоящий спасательный круг для тех случаев, когда картинка почти идеальна и нужно лишь чуть подправить мелочь.

Отдельно стоит упомянуть Vary (Region). Эта функция появилась относительно недавно и быстро завоевала признание среди пользователей. При нажатии открывается инструмент выделения области — прямоугольником или произвольной формой лассо. Выделяешь конкретный фрагмент изображения, вводишь новый промт, и нейросеть перерисовывает только эту зону, не затрагивая всё остальное. Это ведь по сути тот самый инпейнтинг, который раньше требовал отдельного софта вроде Photoshop или Stable Diffusion с плагинами. А теперь он встроен прямо в интерфейс Midjourney.

Zoom Out: расширение границ кадра

Две кнопки, которые приковывают внимание многих, — Zoom Out 2x и Zoom Out 1.5x. Работают они красиво: нейросеть «отодвигает камеру» от исходного изображения и дорисовывает то, что могло бы находиться за его пределами. Исходная картинка остаётся в центре, а вокруг неё появляется новый контент — пейзаж, архитектура, предметы, небо. Цифра указывает на масштаб отдаления. При двукратном зуме новое изображение вмещает в четыре раза больше «территории», чем оригинал. Впрочем, не стоит ожидать абсолютной точности: чем сильнее зум, тем больше нейросети приходится «додумывать», и подводные камни тут очевидны — искажения стиля, нестыковки перспективы. Но при 1.5x результат обычно выглядит органично.

К тому же рядом с кнопками зума иногда появляется Custom Zoom. Здесь можно вручную задать коэффициент от 1 до 2, а также — внимание — отредактировать промт. Это нюанс, который далеко не все замечают. Можно не просто «отъехать» от картинки, но и описать, чем именно стоит заполнить появившееся пространство. Например, дописать «surrounded by autumn forest» — и вместо случайных элементов нейросеть сгенерирует осенний лес вокруг объекта. Настоящий кладезь творческих возможностей для тех, кто готов экспериментировать.

Стрелки навигации: сдвиг кадра

Четыре стрелки — влево, вправо, вверх, вниз. Функция Pan. Если Zoom Out расширяет изображение равномерно во все стороны, то Pan двигает «рамку» только в одном направлении. Нажал стрелку влево — нейросеть дорисовала пространство слева, а правый край оригинала частично обрезался. Кстати, панорамирование можно использовать несколько раз подряд, постепенно «разворачивая» панораму. Некоторые пользователи таким способом создают грандиозные горизонтальные полотна, сшивая результаты нескольких последовательных панов. Процесс не сложный, но кропотливый — каждый сдвиг нужно оценивать на предмет визуальных стыков.

Кнопка с сердечком и другие мелочи

Маленькая иконка-сердце под изображением — это оценка «нравится». Многие проскакивают мимо неё, а зря. Дело в том, что все отмеченные картинки собираются на сайте Midjourney в специальной галерее, и к ним можно вернуться в любой момент. К тому же разработчики заявляли, что лайки помогают алгоритму лучше понимать эстетические предпочтения пользователя. Насколько это влияет на будущие генерации — вопрос неоднозначный, но хуже точно не будет.

Ещё один значок, который бросается в глаза, — Web. Нажатие перекидывает на сайт midjourney.com, где изображение отображается в полном разрешении с возможностью скачать файл. Это удобно. Ведь в Discord качество картинок иногда «режется» при предпросмотре, а на сайте доступен оригинал без сжатия.

Чем отличается интерфейс на сайте от Discord?

Буквально пару лет назад Midjourney существовала исключительно как бот в Discord. Сейчас же ситуация изменилась — появился собственный веб-интерфейс с отдельной системой навигации. На сайте кнопки расположены иначе: не под картинкой в чате, а на боковой панели и во всплывающих окнах. Но логика осталась прежней — апскейл, вариации, зум, пан. Добавились разве что фильтры поиска по архиву генераций и возможность группировать изображения в папки. Для тех, кто привык работать в Discord, переход может показаться непривычным, однако к новому расположению элементов глаз адаптируется за пару сеансов.

На самом деле веб-версия решает одну застарелую проблему — хаос в каналах Discord, где промты и результаты смешиваются с чужими генерациями. На сайте у каждого пользователя изолированное рабочее пространство, и ничто не отвлекает от процесса. Тем более что здесь удобнее управлять параметрами промта через выпадающие меню, а не прописывать всё вручную через двойное тире.

Все топовые нейросети в одном месте

Скрытые параметры, влияющие на кнопки

Не все знают, что поведение кнопок зависит от того, какие параметры были указаны в исходном промте. Параметр —ar (соотношение сторон) влияет на доступность Pan — при нестандартных пропорциях стрелки ведут себя чуть иначе. Параметр —no (негативный промт) сохраняется при вариациях, так что если в исходном запросе были прописаны исключения, они останутся в силе даже после нажатия V. А вот —seed при повторной генерации через круглую стрелку, разумеется, сбрасывается — в этом вся её суть.

Особый интерес вызывает параметр —style raw, который снижает «авторский почерк» Midjourney и делает генерацию более буквальной. Кнопки под картинкой при этом остаются теми же, но результат вариаций оказывается менее «приукрашенным». Если стандартный режим тяготеет к кинематографичности, то raw выдаёт более сдержанный добротный результат. Впрочем, для художественных проектов сдержанность — не всегда плюс.

Стоит ли запоминать все кнопки наизусть?

Нет смысла зубрить интерфейс как таблицу умножения. Гораздо продуктивнее просто начать пользоваться инструментом и позволить рукам привыкнуть. Первые десять-пятнадцать генераций стоит провести в экспериментальном режиме: жать все кнопки подряд, смотреть, что происходит, сравнивать результаты. Нейросеть ничего не сломает — максимум потратится немного минут из подписки. А понимание логики придёт само собой, потому что интерфейс Midjourney, при всей кажущейся сложности, выстроен довольно последовательно: сначала выбор, потом уточнение, потом финальная доводка.

И ещё один совет напоследок — не стоит забывать о горячих клавишах и команде /describe, которая работает в обратную сторону: загружаешь готовое изображение, а нейросеть выдаёт текстовый промт, способный его воспроизвести. Это бесценный инструмент для обучения, ведь через анализ чужих работ понимание навигации и логики Midjourney приходит в разы быстрее, чем через чтение документации. Удачи в освоении этого изумительного инструмента — первые результаты, которые по-настоящему порадуют, обычно не заставляют себя долго ждать.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *