Что делает Midjourney: подробный обзор возможностей популярной нейросети

Ещё каких-то пять лет назад само словосочетание «нейросеть рисует картины» вызывало у обывателя скептическую ухмылку — мол, какие там картины, максимум размытые пятна с кривыми лицами. А потом случился настоящий бум генеративного искусства, и в центре этого бума, словно скала посреди бурного потока, оказался один довольно необычный инструмент. Речь, конечно же, о Midjourney — нейросети, которая за пару лет из нишевого эксперимента превратилась в мощнейший генератор визуального контента, способный потягаться с иллюстраторами-фрилансерами за заказы. Но чтобы разобраться, на что эта штука способна на самом деле, стоит заглянуть под капот и рассмотреть каждую возможность по отдельности.

Как вообще устроена Midjourney?

Вся суть в том, что Midjourney работает на принципах диффузионных моделей — тех самых, что сначала превращают изображение в «шум», а затем учатся этот шум пошагово убирать, формируя новую картинку. Звучит довольно просто, однако за этим кроется колоссальная математика и миллиарды параметров, обученных на гигантских массивах визуальных данных. Изначально взаимодействие с нейросетью происходило исключительно через Discord — мессенджер, ставший неожиданным пристанищем для художников и дизайнеров. Пользователь вводил текстовый запрос (промпт), а бот возвращал четыре варианта изображения. Сейчас же у Midjourney появился и собственный веб-интерфейс, хотя львиная доля сообщества по-прежнему тяготеет к Discord. Это привычнее. Да и сама атмосфера живого чата, где результаты генерации видят все участники канала, создаёт особый колоритный антураж совместного творчества.

Генерация изображений по текстовому описанию

Сердце Midjourney. Именно ради этого сюда приходит львиная доля пользователей — набрать в строке команду /imagine, вписать описание мечты и через минуту получить визуальное воплощение. Казалось бы, ничего нового: текст-в-картинку умеют и DALL·E, и Stable Diffusion. Но дело в том, что Midjourney исторически делала ставку не на фотореализм как таковой, а на эстетику. Результат почти всегда выглядит так, будто над ним поработал арт-директор — выверенная композиция, приятная цветовая палитра, грамотное освещение. И это бросается в глаза даже при самых коротких промптах из трёх-четырёх слов. К слову, многие новички удивляются: они вводят «закат над океаном», а получают не банальную открытку, а нечто среднее между импрессионизмом и концепт-артом для фильма. Впрочем, чем точнее и подробнее запрос, тем предсказуемее и ближе к задуманному окажется результат.

Стоит ли разбираться в промптах?

Однозначно да. Промпт-инжиниринг — это, по сути, новый язык общения с нейросетью, и овладение им творит чудеса. Можно указать стиль конкретного художника, эпоху, технику исполнения (акварель, масло, цифровая графика), ракурс камеры, тип освещения и даже соотношение сторон итоговой картинки. Один из самых популярных приёмов — добавление так называемых «модификаторов качества»: фразы вроде 8k resolution, cinematic lighting или hyper-detailed заметно влияют на детализацию и настроение финального изображения. А вот с отрицательными промптами (параметр —no) дело обстоит чуть сложнее — через него из картинки можно «вычесть» нежелательные элементы, но работает это не всегда идеально. Иногда нейросеть всё-таки протаскивает то, от чего просили избавиться. Нюанс знакомый, и к нему стоит быть готовым.

Вариации и увеличение: что происходит после генерации

Четыре картинки появились. Что дальше? Под каждой сеткой изображений расположены кнопки, и разобраться в них — задача не из лёгких для тех, кто привык к традиционным графическим редакторам. Кнопка U (upscale) увеличивает выбранное изображение до более высокого разрешения, прорабатывая мелкие детали, которые в миниатюре были лишь намёком. Кнопка V (variation) берёт понравившийся вариант за основу и создаёт четыре его «родственника» — похожих по духу, но отличающихся деталями. Это довольно удобно, когда общее направление нравится, но хочется другой ракурс или слегка изменённую композицию. Ведь именно на этапе вариаций рождаются самые неожиданные решения — те, которые изначально не закладывались в промпт, но которые нейросеть «додумала» сама.

Режимы и параметры генерации

Midjourney — не просто чёрный ящик, в который забрасываешь текст и молишься на результат. Инструмент предлагает внушительный набор параметров, каждый из которых влияет на финальную картинку. Параметр —ar задаёт соотношение сторон: можно получить квадрат, вертикальный постер или широкоформатный пейзаж. Параметр —chaos регулирует степень «безумия» — при низких значениях результаты предсказуемы и близки к описанию, при высоких нейросеть пускается в импровизацию. К тому же есть —stylize, контролирующий меру художественной интерпретации: чем выше число, тем дальше итог от буквального прочтения промпта и тем ближе к собственному «вкусу» нейросети. Отдельно стоит упомянуть переключение между версиями модели. Каждая новая версия (на момент написания актуальна шестая) заметно отличается от предыдущей — и по качеству текстур, и по пониманию сложных сцен. Многие опытные пользователи до сих пор иногда откатываются к версии 5.2 ради определённого стиля, потому что каждая итерация модели обладает своим характерным «почерком».

Работа с изображениями-референсами

Текстовый запрос — не единственный способ объяснить нейросети, чего от неё хотят. Midjourney принимает на вход готовые изображения, используя их как визуальные ориентиры. Достаточно вставить ссылку на картинку перед текстом промпта, и модель «впитает» её цветовую гамму, настроение, композицию — и переплетёт всё это с текстовым описанием. Стоит отметить, что вес референса можно регулировать параметром —iw: при максимальных значениях нейросеть почти копирует стиль исходника, при минимальных — лишь едва заметно кивает в его сторону. Этой функцией активно пользуются дизайнеры, которым нужно выдержать единый добротный визуальный стиль в рамках проекта — скажем, при создании серии обложек для книг или иллюстраций к статьям. Ну и, конечно же, это спасательный круг для тех, кому сложно сформулировать желаемое словами, зато легко показать «хочу что-то похожее на это, только с драконом».

Что насчёт редактирования готовых картинок?

Долгое время ложкой дёгтя в бочке возможностей Midjourney оставалась невозможность точечно править результат. Сгенерировал портрет — а у персонажа шесть пальцев. Раньше с этим приходилось мириться или перегенерировать до посинения. Но ситуация изменилась. С появлением функции inpainting (локальная перерисовка) пользователь может выделить конкретную область изображения и попросить нейросеть переделать только её, не трогая остальное. По сути, это аналог ластика и кисти, только вместо ручной работы — текстовая команда. Работает ли это безупречно? Нет, подводные камни всплывают регулярно: иногда стык отредактированной зоны с оригиналом бросается в глаза, иногда стиль «заплатки» чуть отличается от окружения. Но прогресс колоссальный — буквально год назад о таком и мечтать не приходилось.

Масштабирование и расширение холста

Ещё одна функция, без которой профессиональное использование Midjourney было бы довольно затруднительным. Нужно отметить, что изначально нейросеть генерировала изображения в скромном разрешении — около 1024 на 1024 пикселей. Для поста в социальных сетях этого хватало, а вот для печати на баннере или холсте — уже нет. Сейчас встроенные инструменты апскейла поднимают разрешение до двух-четырёхкратного увеличения, сохраняя при этом резкость деталей. К тому же появилась возможность «дорисовывания» за пределами исходного кадра — так называемый pan и zoom out. Представьте: сгенерировали крупный план лица, а потом «отъехали камерой», и нейросеть достроила плечи, одежду, фон — причём в стилистике оригинала. Зрелище впечатляющее, хотя и не без огрехов на стыках.

Midjourney и текст на изображениях

Больное место. Буквально до версии 6 с генерацией текста на картинках дело обстояло удручающе — буквы скакали, слова превращались в невнятную кашу, а вывески на зданиях выглядели так, будто их писал человек, впервые увидевший алфавит. Версия 6 совершила заметный рывок: если заключить нужное слово в кавычки прямо внутри промпта, нейросеть с довольно высокой точностью воспроизведёт его на картинке. Идеально ли это работает? Нет. Длинные фразы по-прежнему даются с трудом, кириллица и вовсе остаётся головной болью. Но короткие английские слова — названия брендов, заголовки, надписи на футболках — получаются всё увереннее. И это серьёзное вложение в будущее инструмента, ведь без читаемого текста на изображениях о полноценном создании рекламных макетов можно было бы забыть.

Стилизация и «характерный почерк» нейросети

Странное дело. Многие критики нейросетевого арта утверждают, что у ИИ нет собственного стиля — мол, он лишь перемешивает чужое. Но любой, кто провёл с Midjourney хотя бы пару вечеров, без труда опознает её работу в общем потоке: характерная мягкость теней, слегка «кинематографичная» палитра, склонность к драматическому контровому свету. Всё-таки у этого инструмента есть нечто вроде авторского голоса, и именно он привлекает тех, кому не нужна стерильная фотографическая точность. Впрочем, при желании «почерк» можно перенастроить. Команда —style позволяет переключаться между предустановленными вариантами подачи, а комбинация из детального промпта и правильных параметров способна сымитировать практически любое направление — от ренессансной живописи до японского аниме и минималистичной векторной графики.

Как нейросеть справляется с фотореализмом?

На удивление хорошо. Ещё версия 5 показала, что Midjourney может генерировать изображения, которые неподготовленный зритель примет за фотографию. Портреты с естественными текстурами кожи, ресницами, отражениями в зрачках — всё это впечатляет и одновременно настораживает. Ведь обе стороны медали здесь видны как на ладони: с одной стороны — грандиозные возможности для концепт-арта, создания мокапов, визуализации архитектурных проектов. С другой — риск фейков, дипфейков и манипуляций. Само собой, разработчики пытаются маркировать сгенерированные изображения метаданными, но обойти эту защиту пока не составляет большого труда. К слову, именно из-за реалистичности результатов вокруг Midjourney не утихают споры об авторском праве и этике — тема щепетильная и неоднозначная, заслуживающая отдельного разговора.

Коммерческое применение: кому это всё нужно?

Многие считают, что нейросетевой арт — баловство для соцсетей. На самом деле коммерческое использование Midjourney уже давно вышло за рамки развлечений. Дизайнеры используют её для быстрого прототипирования — вместо часов работы в Photoshop на создание мудборда уходит десять-пятнадцать минут. Маркетологи генерируют визуалы для рекламных кампаний, экономя бюджеты, которые раньше съедали фотосессии и работа иллюстраторов. Архитекторы визуализируют интерьеры и экстерьеры на ранних этапах проектирования — когда 3D-модели ещё нет, а клиенту хочется «увидеть атмосферу». Разработчики игр создают концепт-арт персонажей и локаций. Да и самим фрилансерам нейросеть нередко выручает: не заменяет их работу, а ускоряет поиск идей, выступая своеобразным скрупулёзным ассистентом, который никогда не устаёт предлагать варианты. Кошелёк при этом становится легче лишь на стоимость подписки — от десяти долларов в месяц за базовый план до ста двадцати за максимальный, с приоритетной обработкой и приватным режимом генерации.

Ограничения и подводные камни

Не стоит идеализировать инструмент. Ведь при всех достоинствах Midjourney остаётся нейросетью со всеми вытекающими проблемами. Во-первых, руки и пальцы — вечная ахиллесова пята. Модель научилась справляться с ними значительно лучше, чем год назад, но периодически генерирует шестипалые конечности или анатомически невозможные позы. Во-вторых, контроль над деталями всё ещё ограничен: если нужно, чтобы персонаж держал в левой руке красное яблоко, а в правой — синий зонт, нейросеть может запросто перепутать руки, цвета или и то и другое. Ну и, наконец, проблема консистентности — создать одного и того же персонажа в разных сценах и ракурсах крайне сложно, хотя появление функции —cref (character reference) заметно сдвинуло дело с мёртвой точки. Этот новый параметр позволяет «зафиксировать» внешность героя, передав его изображение как референс, и модель старается сохранять черты лица от кадра к кадру. Работает пока неидеально, но направление верное.

Midjourney и конкуренты: есть ли разница?

Безусловно, Midjourney существует не в вакууме. Рядом стоят DALL·E 3 от OpenAI, Stable Diffusion от Stability AI, Adobe Firefly и множество менее известных генераторов. Чем же выделяется наш герой? Главная изюминка — эстетический «вкус», заложенный разработчиками на уровне архитектуры модели. Stable Diffusion даёт больше технического контроля (особенно через ComfyUI и расширения), но требует мощного железа и довольно глубоких познаний. DALL·E 3 отлично понимает сложные промпты и генерирует текст на картинках точнее, однако стилистически результат нередко выглядит «стерильно». Adobe Firefly — безопасный выбор для коммерческих проектов, обученный на лицензированном контенте, но по выразительности пока уступает. А Midjourney балансирует между художественностью и простотой использования, и именно этот баланс приковывает внимание такого количества творческих людей по всему миру.

Как начать пользоваться?

С технической точки зрения порог входа минимален. Нужно зарегистрироваться на сайте Midjourney или в Discord, оформить подписку (бесплатный тариф с ограничениями периодически появлялся, но стабильно доступен платный) и начать вводить промпты. Первые результаты удивят — но не стоит останавливаться на них. Настоящее мастерство приходит через эксперименты с параметрами, изучение чужих удачных промптов (для этого существует целый раздел на сайте — Explore) и, что особенно важно, через понимание логики нейросети. Дело в том, что Midjourney — не поисковик картинок и не волшебная палочка: она интерпретирует слова через призму своего обучения, и порой «красивый закат» для неё значит совсем не то, что для вас. Тем более что английский язык остаётся предпочтительным для промптов — на русском результаты менее предсказуемы, хотя базовое понимание присутствует.

Midjourney за неполных три года проделала путь, на который традиционным графическим инструментам потребовались бы десятилетия. И пусть инструмент далёк от совершенства — шестые пальцы, неразборчивые надписи и капризная консистентность персонажей никуда не делись — прогресс от версии к версии впечатляет. Для дизайнеров, маркетологов, писателей и просто творческих натур эта нейросеть уже стала незаменимым помощником, который не заменяет фантазию, а усиливает её в разы. Удачи в освоении этого изящного инструмента — пусть каждый ваш промпт превращается ровно в ту картинку, которую вы видели в своём воображении.