Полный обзор возможностей версии Midjourney 6.1

Нейросети для генерации изображений за последние пару лет превратились из забавной игрушки в полноценный рабочий инструмент — и для дизайнеров, и для маркетологов, и даже для тех, кто просто грезит о собственных иллюстрациях, но карандаш в руках держал последний раз в школе. Midjourney среди подобных сервисов давно занимает особое место: именно этот генератор приковывает внимание аудитории качеством картинки, которое порой сложно отличить от работы живого художника. Однако каждый новый релиз вызывает закономерный вопрос — а стоит ли обновление потраченного времени на изучение, или перед нами косметическая правка? Версия 6.1, вышедшая летом 2024 года, дала на этот вопрос весьма красноречивый ответ, и разобраться в нюансах обновления определённо стоит.

Что изменилось в качестве изображений?

Первое, что бросается в глаза при переходе на 6.1, — это текстуры. Кожа человека, ткань одежды, поверхность камня или дерева — всё стало заметно реалистичнее. Дело в том, что разработчики серьёзно доработали алгоритм рендеринга мелких деталей, и теперь даже при генерации крупных планов лица не возникает ощущения «восковой куклы», которое так раздражало в предыдущих версиях. Поры, мелкие морщинки, едва заметные дефекты — всё это нейросеть теперь воспроизводит с поразительной скрупулёзностью. К тому же световые блики на коже и волосах стали мягче, без того неестественного глянца, который выдавал искусственное происхождение картинки. И всё же не стоит думать, что каждый результат идеален с первого раза. Ведь промт по-прежнему решает львиную долю успеха.

Отдельно стоит упомянуть работу с руками и пальцами — извечную головную боль всех генеративных моделей. Шесть пальцев на одной руке или странно вывернутые запястья в шестой версии встречались довольно часто. Версия 6.1 эту проблему не устранила полностью, но прогресс внушительный: по наблюдениям сообщества, процент «анатомических ошибок» снизился примерно на сорок процентов. Это серьёзная цифра. Особенно для тех, кто генерирует портреты или фэшн-иллюстрации, где каждый палец на виду.

Работа с текстом внутри изображений

Вот где версия 6.1 по-настоящему удивляет. Буквально несколько месяцев назад вписать читаемое слово в картинку было настоящей лотереей — буквы плыли, менялись местами, а иногда нейросеть и вовсе выдумывала собственный алфавит. Сейчас же ситуация изменилась кардинально. Короткие надписи из двух-трёх слов на латинице нейросеть воспроизводит практически безошибочно. А вот с длинными фразами дело обстоит сложнее — тут всё ещё могут всплывать артефакты, особенно если шрифт мелкий или стилизованный. Стоит отметить один важный нюанс: кириллица пока остаётся подводным камнем. Русские буквы модель генерирует заметно хуже, путая «Ш» с «Щ» или добавляя лишние элементы. Так что для кириллических надписей разумнее по-прежнему использовать пост-обработку в графическом редакторе.

Насколько точнее стало следование промтам?

Больная тема. В ранних версиях Midjourney славился тем, что «слышал» пользователя весьма избирательно. Написал «красный автомобиль на фоне заката у моря» — получил синий фургон в горах. Утрирую, конечно, но суть ясна. Версия 6.0 сделала серьёзный шаг вперёд в понимании естественного языка, а 6.1 этот курс продолжила. Теперь модель значительно лучше разбирается в пространственных отношениях между объектами: «слева», «позади», «на переднем плане» — эти указания нейросеть стала обрабатывать куда точнее. Кроме того, улучшилось понимание сложных описаний, где в одном промте переплетаются настроение, стиль, конкретные детали и цветовая палитра.

Впрочем, идеального послушания ждать не стоит. Модель всё ещё тяготеет к собственной «интерпретации» — и в этом, как ни странно, кроется её изюминка. Многие пользователи признают, что именно эта лёгкая непредсказуемость порой рождает результаты интереснее задуманных. Но если нужен жёсткий контроль, на помощь приходит обновлённый параметр —style raw, о котором речь пойдёт чуть ниже.

Параметр style raw и режим персонализации

Режим —style raw существовал и раньше, но в версии 6.1 его заметно усилили. Вся суть в том, что при активации этого параметра нейросеть максимально отступает от своей «художественной отсебятины» и старается следовать промту буквально. Меньше драматичного освещения «по умолчанию», меньше автоматической стилизации, меньше тех эффектов, которые Midjourney так любит добавлять самостоятельно. Для коммерческой работы это настоящий спасательный круг. Ведь заказчику нужна конкретная картинка, а не полёт фантазии нейросети.

А вот режим персонализации (—personalize или —p) — относительно свежее добавление, которое в 6.1 раскрылось по-новому. Работает он так: пользователь предварительно оценивает пары изображений в специальном разделе на сайте Midjourney, и на основе этих оценок модель выстраивает «вкусовой профиль». Потом, при генерации с флагом —p, результаты подстраиваются под эстетические предпочтения конкретного человека. Довольно изящное решение, хотя и требует определённого терпения на этапе «обучения» системы. Нужно оценить хотя бы двести пар, чтобы профиль стал хоть сколько-нибудь точным. Тем более что результат напрямую зависит от количества и разнообразия оценённых картинок.

Что с разрешением и апскейлом?

Ещё один серьёзный скачок. Базовое разрешение генерации в 6.1 осталось прежним — 1024 на 1024 пикселей для квадратных изображений. Но вот встроенные апскейлеры получили солидную доработку. В шестой версии при увеличении картинки часто терялись мелкие детали, а текстуры «замыливались». Теперь же апскейл до двукратного размера (2048 на 2048) сохраняет куда больше информации. К слову, добротный внешний апскейлер вроде Topaz Gigapixel по-прежнему выдаёт результат получше, но разрыв заметно сократился. Для тех, кому нужна быстрая генерация без лишних махинаций с внешним софтом, встроенного инструмента теперь вполне хватает.

Стоит ли пересаживаться с версии 6.0?

Вопрос неоднозначный. С одной стороны, версия 6.1 — это не революция, а эволюция. Кардинально нового стиля или принципиально иного подхода к генерации здесь нет. С другой — накопленные улучшения в совокупности дают ощутимую разницу. Особый интерес вызывает доработка когерентности изображения — способности нейросети выстраивать визуально целостную сцену, где все элементы связаны между собой логически и стилистически. В шестой версии порой возникали ситуации, когда освещение объектов на переднем и заднем плане «жило своей жизнью». В 6.1 такие нестыковки встречаются значительно реже.

Ну и, конечно же, нельзя не упомянуть скорость. По ощущениям пользователей, генерация в режиме —fast стала примерно на пятнадцать-двадцать процентов быстрее. Цифра может показаться скромной, но при активной работе, когда за день через нейросеть проходят сотни промтов, экономия времени набегает внушительная. Да и сами серверы стали стабильнее — очереди в часы пик заметно короче.

Новые параметры и скрытые возможности

Одной из самых обсуждаемых фишек стал параметр —weird (сокращённо —w), который в 6.1 получил расширенный диапазон значений. По умолчанию он равен нулю, но стоит поднять его до 250 или даже до 1000, как результат начинает тяготеть к сюрреализму и экспериментальной эстетике. Для художников, которым наскучила «красивая открытка», этот инструмент — настоящий кладезь вдохновения. Но и тут есть ложка дёгтя: при высоких значениях —weird модель нередко забывает про основной промт, увлекаясь собственными галлюцинациями.

Помимо этого в 6.1 доработали параметр —chaos, отвечающий за разнообразие результатов в рамках одного промта. Раньше при значениях выше 50 результаты становились совсем непредсказуемыми — иногда приятно, а иногда удручающе. Сейчас разброс стал более контролируемым, и даже при —chaos 80 все четыре варианта в сетке сохраняют связь с исходным запросом. К тому же появилась возможность комбинировать —weird и —chaos с —style raw, что ещё год назад приводило к конфликтам параметров и странным артефактам.

Как обстоят дела с коммерческим использованием?

Тема щепетильная. Политика Midjourney в отношении коммерческих прав не изменилась с выходом 6.1: подписчики платных тарифов (начиная от Basic Plan за 10 долларов в месяц) могут использовать сгенерированные изображения в коммерческих целях. Но есть нюанс, о котором многие забывают. При генерации изображений с узнаваемыми лицами реальных людей, логотипами брендов или персонажами, защищёнными авторским правом, вся ответственность ложится на пользователя. Midjourney в своих условиях использования чётко это оговаривает. И хотя в 6.1 появились дополнительные фильтры, блокирующие генерацию «слишком похожих» лиц знаменитостей, обойти эту защиту при желании не составляет труда. Так что не стоит слишком расслабляться.

Для профессиональных дизайнеров и арт-директоров появилась ещё одна приятная мелочь — улучшенная поддержка соотношений сторон. Параметр —ar теперь корректнее работает с нестандартными пропорциями вроде 21:9 или 9:21. Ранее при таких «экстремальных» соотношениях нейросеть нередко обрезала важные элементы композиции или вытягивала фигуры до карикатурных пропорций. Сейчас же модель значительно аккуратнее распределяет объекты по вытянутому холсту.

Сравнение с конкурентами: DALL-E 3 и Stable Diffusion

Без сравнения картина была бы неполной. DALL-E 3 от OpenAI по-прежнему лидирует в точности следования текстовым промтам — особенно когда речь идёт о сложных многоэлементных сценах с конкретным расположением объектов. Но в плане «художественности» и общей эстетики изображения Midjourney 6.1 всё ещё впереди. Картинки получаются более «живыми», с характерной атмосферой, которую сложно описать словами, но легко почувствовать при сравнении. А вот Stable Diffusion XL — совсем другая история. Этот инструмент тяготеет к максимальной гибкости и контролю (через ControlNet, LoRA-модели и другие надстройки), но требует технической подготовки и, как правило, мощного железа. Midjourney же работает целиком в облаке, и для генерации достаточно браузера или Discord-клиента.

Нужно отметить, что конкуренция в этой сфере обостряется с каждым месяцем. На горизонте маячат Flux от Black Forest Labs и обновлённая модель от Adobe Firefly, каждая со своими козырями. Но на момент выхода 6.1 Midjourney по совокупности качества, удобства и скорости по-прежнему остаётся выбором номер один для львиной доли пользователей, которым нужна красивая картинка «здесь и сейчас» без погружения в технические дебри.

Подводные камни и ограничения версии

Было бы нечестно обойти стороной минусы. Во-первых, Midjourney по-прежнему не имеет полноценного графического интерфейса для генерации — основной процесс идёт через Discord-бота. Да, появился веб-интерфейс на сайте midjourney.com, но на момент выхода 6.1 он всё ещё находится в стадии альфа-тестирования и доступен не всем подписчикам. Для обывателя, далёкого от мира чат-ботов, такой формат работы может показаться непривычным и даже отпугивающим.

Во-вторых, ценовая политика довольно ощутимо бьёт по бюджету при интенсивном использовании. Тариф Basic (10 долларов) даёт всего около двухсот генераций в месяц в быстром режиме, чего профессионалу хватит от силы на пару рабочих дней. Standard Plan за 30 долларов снимает ограничение на медленный режим, но быстрых генераций там тоже не безлимитное количество. А Pro Plan за 60 долларов — серьёзное вложение, особенно если пересчитать на рубли по текущему курсу. Впрочем, для коммерческого использования эти суммы окупаются довольно быстро.

Промт-инжиниринг в эпоху 6.1

С каждой новой версией правила составления промтов немного сдвигаются. В ранних версиях Midjourney лучше реагировал на короткие, «телеграфные» описания. В шестой — на развёрнутые предложения на естественном языке. А в 6.1 золотая середина найдена. Модель одинаково хорошо воспринимает и лаконичный промт из пяти слов, и подробное описание на три строки. Но есть тонкость: порядок слов теперь имеет большее значение, чем раньше. То, что стоит в начале промта, получает максимальный «вес» в генерации. Поэтому самую важную деталь — будь то стиль, объект или настроение — разумнее ставить первой.

Не стоит перегружать промт избыточными деталями. Пять-семь конкретных описаний работают лучше, чем двадцать размытых. И ещё один совет из практики: негативные промты (через параметр —no) в 6.1 стали эффективнее. Если в картинке упорно появляется нежелательный элемент — скажем, водяной знак или лишний персонаж — добавление —no watermark или —no extra people теперь действительно помогает. Раньше этот параметр работал через раз.

Ну, а тем, кто только начинает осваивать Midjourney, версия 6.1 станет отличным стартом — порог входа ниже, результаты стабильнее, а сообщество вокруг сервиса давно превратилось в колоритную экосистему с десятками каналов, гайдов и готовых библиотек промтов. Удачи в творческих экспериментах — нейросеть ведь всего лишь инструмент, а за кадром всегда стоит человек с идеей.