Нейросеть Midjourney v5: главные фишки и отличия пятой версии

Ещё пару лет назад генерация изображений по текстовому описанию казалась чем-то из области фантастики — такой себе далёкий горизонт, до которого обывателю и дела особого нет. А потом появился Midjourney, и львиная доля дизайнеров, иллюстраторов и просто любопытных пользователей буквально окунулась в мир, где картинку «рисует» машина по нескольким словам. Версии сменяли друг друга довольно стремительно: третья удивляла самим фактом своего существования, четвёртая — уже качеством. Но именно пятая стала тем самым переломным моментом, когда результат на выходе начал приковывать внимание даже скептиков. А чтобы понять, за что её так хвалят и где тут подводные камни, стоит разобрать всё по полочкам.

Что изменилось в подходе к фотореализму?

Фотореализм. Именно это слово чаще всего всплывает в обсуждениях пятой версии. Дело в том, что предыдущие итерации Midjourney тяготели к определённой «нарисованности» — изображения получались эффектными, порой даже грандиозными, но от реальной фотографии их отличал характерный цифровой налёт. В v5 эту грань разработчики практически стёрли. Текстуры кожи, блики на металле, мягкое рассеивание света — всё это нейросеть научилась воспроизводить с пугающей точностью. Стоит отметить, что если раньше для получения реалистичного портрета приходилось дописывать в промт целую гирлянду уточнений вроде «photorealistic, 8k, cinematic lighting», то теперь добротный результат выдаётся даже при сравнительно скромном запросе. И всё же не стоит думать, будто машина творит чудеса без вашего участия — грамотный промт по-прежнему решает многое.

Руки, пальцы и анатомия — старая боль

Вот тут кроется одна из самых обсуждаемых перемен. Кто хоть раз генерировал человеческие фигуры в третьей или четвёртой версии, наверняка помнит эти жуткие шестипалые кисти, скрюченные пальцы и суставы, вывернутые в немыслимых направлениях. Зрелище, прямо скажем, удручающее. В Midjourney v5 ситуация с анатомией стала заметно лучше. Не идеальной — нет, об этом речи не идёт, — но разница бросается в глаза. Пальцев теперь, как правило, ровно пять, ногти не срастаются в бесформенную массу, а пропорции тела выглядят куда естественнее. Впрочем, если задать очень сложную позу с множеством переплетённых рук, нейросеть всё ещё может «споткнуться». Это нюанс, о котором не стоит забывать.

Промты стали проще или сложнее?

На самом деле — и то, и другое одновременно. Парадокс? Не совсем. С одной стороны, v5 гораздо лучше понимает естественный язык, и писать промты «для робота» — с нагромождением технических тегов — уже нет такой необходимости. Нейросеть цепляет смысл фразы, а не просто набор разрозненных слов. Достаточно описать сцену обычным человеческим языком, и результат окажется вполне адекватным. Но с другой стороны, именно эта чувствительность к деталям означает, что каждое слово в промте весит больше. Если раньше лишнее прилагательное могло пройти незамеченным, то теперь оно способно развернуть всю композицию в неожиданную сторону. К тому же появилась довольно тонкая механика «весов» — когда отдельным частям промта можно задавать приоритет через двоеточие и числовое значение. Это мощный инструмент, но он требует терпения и экспериментов.

Стилизация и художественные направления

Одна из главных изюминок Midjourney всех версий — умение мимикрировать под различные художественные стили. Масло, акварель, поп-арт, киберпанк, ар-деко — нейросеть довольно уверенно переключалась между эстетиками ещё в четвёртой версии. Однако в v5 глубина этой стилизации вышла на новый уровень. Ведь теперь нейросеть не просто «накладывает фильтр» — она, похоже, понимает внутреннюю логику стиля. Если попросить нарисовать городской пейзаж в духе импрессионизма, получатся не просто размытые мазки, а характерная работа со светом, колоритная палитра, та самая воздушность, за которую импрессионистов и ценят. К слову, стиль «raw» — одно из нововведений пятой версии — намеренно убирает «украшательства» и выдаёт более сырую, натуралистичную картинку, что бывает очень кстати для определённых задач.

Отдельно стоит упомянуть работу с текстурами. В предыдущих версиях ткань часто выглядела как пластик, а дерево — как раскрашенный картон. Теперь же фактура материалов передаётся настолько скрупулёзно, что порой натыкаешься на сгенерированный снимок старого кожаного кресла и не сразу отличаешь его от фотографии из каталога антикварной мебели. Это серьёзное достижение. Тем более, что подобная детализация раньше была привилегией только самых мощных специализированных моделей.

Разрешение и детализация

Тут всё просто, и одновременно — нет. Базовое разрешение в v5 выросло до 1024×1024 пикселей, а с апскейлом (функцией увеличения) картинку можно дотянуть и до более внушительных размеров. Но дело ведь не только в количестве пикселей. Важно, чем эти пиксели «наполнены». И вот здесь пятая версия выдаёт качественный скачок: мелкие детали — ресницы, текстура древесных волокон, отражения в лужах — прорабатываются без той «мыльности», которая преследовала ранние модели. Кроме того, апскейлер стал куда деликатнее: вместо грубого «растягивания» он дорисовывает недостающие элементы, сохраняя общую гармонию изображения. Да и сами зверьки — совы, лисы, коты — наконец-то получили правдоподобную шерсть вместо ватного одеяла.

Чем v5 отличается от v4 на практике?

Сравнивать версии на словах — дело неблагодарное. Ведь пока сам не попробуешь, разницу ощутить сложно. И всё же попробуем. Во-первых, в четвёртой версии нейросеть по умолчанию склонялась к определённой «мидджорнийной» эстетике — такой полу-иллюстративный, слегка сказочный стиль. Нравился он не всем, но отделаться от него было непросто даже при специальных настройках промта. В v5 этот дефолтный стиль практически исчез. Нейросеть стала нейтральнее, честнее, если хотите. Она выдаёт именно то, что ей описали, без навязчивой «отсебятины». Во-вторых, соотношение сторон (aspect ratio) теперь обрабатывается куда гибче — панорамные и вертикальные форматы больше не выглядят как обрезанные по краям прямоугольники. Ну и, наконец, скорость генерации подросла. Не кардинально, но ожидание в очереди стало чуть менее томительным.

Стоит ли переплачивать за подписку?

Неоднозначный вопрос, и однозначного ответа на него не существует. Midjourney работает по подписной модели, и тарифы варьируются — от базового плана (примерно десять долларов в месяц на момент выхода v5) до профессионального, который бьёт по бюджету уже ощутимее. Базовый план даёт около двухсот генераций, чего обычному любопытствующему хватает на первое время. Но стоит задуматься: если нейросеть используется для коммерческих проектов — иллюстраций к статьям, концептов для презентаций, мудбордов для дизайн-проектов — то лимит исчерпывается буквально за пару дней активной работы. В таком случае переход на более дорогой тариф оправдан. Тем более, что в расширенных планах появляется режим «Stealth», скрывающий генерации от других пользователей в общей галерее. Для коммерческой работы это довольно важный нюанс конфиденциальности.

Работа с изображениями-референсами

Сюрприз для тех, кто не следил за обновлениями. В Midjourney v5 можно загрузить собственное изображение и использовать его как отправную точку. Нейросеть «считывает» стилистику, цветовую палитру и композицию референса, а затем переплетает их с текстовым промтом. Это — настоящий спасательный круг для дизайнеров, которым нужно выдержать единый визуальный стиль в рамках целого проекта. Скажем, загружаешь фрагмент интерьера в скандинавском стиле, добавляешь описание «kitchen with morning light, linen curtains», и на выходе получаешь изображение, которое идеально вписывается в уже существующий мудборд. Раньше о такой точности приходилось только грезить. А ещё появился параметр —iw (image weight), регулирующий степень влияния загруженного референса — от еле заметного намёка до почти прямого копирования стилистики.

Подводные камни пятой версии

Было бы нечестно расписывать одни лишь достоинства, не упомянув ложку дёгтя. Первое — цензура. С каждой версией фильтры Midjourney становятся строже, и v5 не исключение. Некоторые вполне невинные промты блокируются без внятного объяснения, что раздражает. Второй нюанс — зависимость от Discord. Вся работа с нейросетью по-прежнему завязана на этот мессенджер, и для многих людей такой формат неудобен. Веб-интерфейс на момент релиза пятой версии находился в закрытом тестировании, и доступ к нему получали далеко не все. К тому же, в часы пиковой нагрузки (вечер по американскому времени) генерация ощутимо замедляется, а очередь растягивается. Ну, а профессионалам, привыкшим к скрупулёзному контролю над каждой деталью, всё ещё не хватает послойного редактирования — нейросеть выдаёт готовое изображение «как есть», без возможности поправить отдельный элемент, не трогая остальные.

Кому пятая версия пригодится больше всего?

Творческий потенциал Midjourney v5 довольно широк, но не стоит думать, что инструмент подходит абсолютно всем в равной мере. Максимальную пользу из него извлекают, пожалуй, графические дизайнеры и арт-директора — те, кому нужна быстрая визуализация идей на этапе концепта. Раньше для этого приходилось нанимать иллюстратора или часами ковыряться в Photoshop, а теперь добротный черновой вариант можно получить за пару минут. Архитекторы и интерьерные дизайнеры тоже оценили: нейросеть генерирует впечатляющие визуализации пространств, от минималистичных лофтов до вычурных барочных залов. Контент-мейкеры и SMM-специалисты используют v5 для создания нестандартных иллюстраций к постам — тех, что цепляют взгляд в ленте, потому что не похожи на приевшиеся стоковые фотографии. А вот художникам-иллюстраторам, чей заработок строится на индивидуальном авторском стиле, стоит относиться к инструменту скорее как к помощнику, а не конкуренту. Безусловно, заменить ручную работу, пропитанную характером и эмоцией конкретного автора, машина пока не в состоянии.

Как получить максимум от генерации?

Секрет хорошего результата кроется не столько в самой нейросети, сколько в умении с ней «разговаривать». Начать нужно с конкретики — размытые описания вроде «красивый пейзаж» выдают соответственно размытый результат. Гораздо эффективнее работает промт, составленный по принципу «что именно, в каком стиле, при каком освещении, с какого ракурса». Например: «old fishing village at sunset, golden hour, shot on 35mm film, shallow depth of field». Каждое дополнение — это как поворот ручки настройки на старом плёночном фотоаппарате. Кстати, упоминание конкретной оптики (85mm lens, wide-angle) творит чудеса: нейросеть имитирует характерные искажения и боке, свойственные определённым объективам. И ещё один совет — не стоит лениться пользоваться параметром —seed. Зафиксировав «семя» генерации, можно вносить точечные правки в промт и наблюдать, как меняется результат, не теряя общую композицию. Это экономит и время, и нервы.

Нельзя не упомянуть и режим —chaos, который регулирует степень вариативности между четырьмя вариантами в одной генерации. При низком значении (скажем, 0–20) все четыре картинки будут похожи друг на друга, при высоком (80–100) — разлетятся в совершенно разные стороны. Для мозгового штурма высокий chaos бывает кладезью неожиданных идей. А вот для финальной доработки конкретной концепции лучше держать его на минимуме.

Этический вопрос и авторское право

Тема щепетильная, и обойти её стороной было бы неправильно. Многие художники и фотографы справедливо возмущаются: нейросеть обучена на миллиардах изображений, значительная часть которых — авторские работы, использованные без разрешения. И хотя Midjourney формально не копирует чужие произведения один к одному, стилистическое заимствование — это обе стороны медали. С одной стороны, любой художник учится, глядя на чужие работы. С другой — масштаб машинного обучения несопоставим с человеческим. На момент выхода v5 правовая база в этой области только формируется: в некоторых юрисдикциях AI-арт уже не подлежит копирайтной защите как произведение, в других — вопрос пока открыт. Так что пользователям, планирующим коммерческое применение сгенерированных изображений, стоит внимательно изучить условия лицензии Midjourney и актуальное законодательство своей страны. Ведь правила игры меняются буквально каждый квартал.

Что дальше?

Буквально десятилетие назад нейросети были уделом узкого академического бомонда, а сейчас ими пользуются школьники для оформления рефератов. Темпы развития — головокружительные. Midjourney v5 — это, безусловно, впечатляющий шаг вперёд, но разработчики уже анонсировали работу над шестой версией, обещая ещё более точное следование промтам и расширенные возможности редактирования готовых изображений. Можно предположить, что через пару итераций грань между сгенерированным и реальным изображением сотрётся окончательно, и главным навыком станет не столько «нарисовать», сколько «грамотно попросить».

Midjourney v5 — инструмент мощный, гибкий, но требующий вдумчивого подхода. Не стоит гнаться за количеством генераций — куда важнее научиться чувствовать логику нейросети, экспериментировать с параметрами и не бояться неожиданных результатов. Именно в таких «случайных» картинках порой кроется та самая изюминка, ради которой и затевается весь этот творческий процесс. Удачи в экспериментах — пусть каждый промт приближает вас к идеальному изображению.