Сравнение версий Midjourney v6 и v7: главные отличия и новые функции

Ещё пару лет назад генерация картинок по текстовому запросу казалась чем-то из области научной фантастики — забавной, но бесполезной игрушкой для энтузиастов. Нейросеть выдавала нечто отдалённо напоминающее задуманное, с шестью пальцами на руках и глазами, расползающимися по лицу в разные стороны. Но темпы прогресса оказались такими, что уже к середине 2024 года Midjourney шестой версии стала настоящим рабочим инструментом для дизайнеров, иллюстраторов и маркетологов. А потом, буквально через год, разработчики выкатили седьмую версию — и сообщество снова загудело. Одни восторгались, другие недоумевали, третьи пытались разобраться, за что именно стоит платить подписку. Поэтому перед тем как бросаться осваивать новинку, не помешает спокойно разложить по полочкам, чем же v7 отличается от предшественницы и стоит ли вообще переходить на свежую модель.

Что изменилось в архитектуре модели?

Начать нужно с фундамента. Midjourney v6 работала на основе диффузионной модели, которую команда Дэвида Хольца оттачивала на протяжении полутора лет — с конца 2023-го по лето 2024-го. Результат получился добротный: картинки стали реалистичнее, текст внутри изображений перестал напоминать тарабарщину, а детализация заметно подросла. Но ведь нет предела совершенству. В v7 разработчики пересмотрели саму архитектуру: модель теперь использует гибридный подход, сочетающий диффузию с элементами авторегрессии. Это звучит сложно, но на практике разница ощущается моментально — генерация стала точнее следовать промпту, а «галлюцинации» модели (когда нейросеть додумывает то, о чём её не просили) сократились примерно на треть. К слову, скорость обработки запроса тоже подросла: если в шестой версии средний рендер занимал около шестидесяти секунд, то седьмая справляется за сорок—сорок пять.

Реализм и детализация

Сравнение бросается в глаза. Достаточно сгенерировать один и тот же промпт в обеих версиях, чтобы увидеть разницу невооружённым глазом. В v6 фотореалистичные портреты уже выглядели впечатляюще — поры кожи, отражения в зрачках, правильная анатомия рук (наконец-то пять пальцев!). Однако при ближайшем рассмотрении всплывали нюансы: слишком «пластиковая» текстура кожи, однородный задний план без мелких дефектов, подозрительно идеальные волосы. Всё это ведь выдавало искусственное происхождение картинки. Седьмая версия подступила к проблеме совсем иначе — текстуры стали многослойными, появились микронесовершенства вроде мелких родинок, неровностей ткани и лёгкого хроматического аберрации по краям кадра. Да и с руками дела обстоят ещё лучше: кисти рук в v7 выглядят анатомически корректно даже в сложных ракурсах, где раньше модель неизбежно «ломала» пальцы.

Отдельно стоит упомянуть работу с тканями и одеждой. В предыдущей версии шёлк выглядел как атлас, а твид — как войлок. Тонкие различия между фактурами модель попросту игнорировала. Теперь же разница между кашемировым свитером и акриловым заметна сразу. Это серьёзное подспорье для тех, кто использует нейросеть в fashion-индустрии или при создании мудбордов.

Как v7 понимает текстовые промпты?

Понимание языка. Вот где произошёл, пожалуй, самый грандиозный скачок. Midjourney v6 научилась неплохо «читать» длинные промпты, но с многоуровневыми описаниями справлялась через раз. Например, запрос «женщина в красном платье стоит на фоне осеннего парка, а справа от неё — мальчик с воздушным шаром синего цвета» мог выдать женщину с синим платьем и красный шарик. Логика распределения атрибутов хромала. В седьмой версии эту проблему решили за счёт улучшенного парсинга промптов — модель теперь разбирает запрос на семантические блоки и привязывает каждый атрибут к конкретному объекту. Не идеально, но львиная доля подобных ошибок ушла в прошлое.

Кстати, появилась и поддержка отрицательных промптов нового формата. Если раньше параметр —no работал грубо (просто снижал вероятность появления объекта), то v7 позволяет задавать более тонкие исключения. Нет смысла писать «—no trees, grass, nature» — достаточно указать «—no natural environment», и модель поймёт контекст. Довольно удобно, особенно когда промпт и без того длинный.

Стоит ли переходить ради новых инструментов?

Вопрос неоднозначный. И вот почему. В v6 набор инструментов был, прямо скажем, аскетичным: параметры —stylize, —chaos, —quality, инпейнтинг через вариации и зум. Всё это работало, но ощущалось скорее как конструктор с ограниченным числом деталей. Седьмая версия расширила арсенал заметно. Во-первых, появился полноценный режим «Draft Mode» — черновая генерация за 10–15 секунд, которая расходует вдвое меньше GPU-минут. Это настоящий спасательный круг для тех, кто экспериментирует с композицией и не хочет тратить подписку на пробные рендеры. Во-вторых, режим «Personalization 2.0» стал куда более гибким: модель запоминает не просто понравившиеся стили, а выстраивает целый «профиль предпочтений» пользователя на основе сотен оценок. Ну и, наконец, встроенный редактор получил маски произвольной формы — можно точечно перегенерировать отдельный фрагмент изображения, не затрагивая остальное.

Но есть и ложка дёгтя. Часть новых функций доступна только на тарифе Pro и выше. Базовый план так и остался довольно ограниченным. Да и сам интерфейс перегрузился настройками — новичку легко запутаться в параметрах, которых стало раза в полтора больше. Тем более что документация на момент запуска была сырой и пестрела пробелами.

Работа с текстом внутри изображений

Больная тема. В v5 текст на картинке напоминал каракули трёхлетнего ребёнка. Шестая версия совершила прорыв — надписи стали читаемыми, хотя и не без казусов: длинные слова иногда «ломались», а кириллица отображалась с ошибками. Стоит отметить, что именно генерация текста всегда оставалась ахиллесовой пятой диффузионных моделей — дело в том, что они «рисуют» буквы попиксельно, а не как набор символов. В v7 разработчики внедрили дополнительный модуль, специализирующийся именно на типографике. Результат? Английский текст до 15–20 символов генерируется почти безупречно. С кириллицей дела обстоят лучше, чем прежде, но до идеала ещё далеко — ошибки в длинных словах всё же всплывают. Впрочем, прогресс очевиден.

Чем отличается стилизация?

Стилистический контроль — ещё одна область, где v7 заметно ушла вперёд. В шестой версии параметр —stylize (он же —s) регулировал степень «художественности» по шкале от нуля до тысячи. Низкие значения давали сухой, близкий к промпту результат, а высокие — превращали картинку в нечто арт-хаусное, порой весьма далёкое от задуманного. Управление было грубым, словно регулятор громкости с двумя положениями: «тихо» и «на всю». Седьмая версия разделила стилизацию на два независимых параметра. Первый отвечает за общую «живописность» кадра, второй — за «настроение» (mood), включая цветовую температуру, контраст и атмосферу. Это позволяет, к примеру, сделать фотореалистичный снимок с тёплой плёночной эстетикой семидесятых, не жертвуя при этом детализацией.

К тому же в v7 расширили библиотеку стилевых референсов (—sref). Если раньше модель с переменным успехом копировала стиль по одной картинке-образцу, то теперь можно загрузить до пяти референсов, и нейросеть выведет из них «среднее арифметическое» стиля. Особый интерес вызывает параметр —sw (style weight), позволяющий указать, насколько сильно каждый конкретный референс должен влиять на итоговый результат. Инструмент скрупулёзный, но для профессионалов — кладезь возможностей.

Скорость и расход ресурсов

Деньги решают. Ведь Midjourney продаёт не просто картинки, а GPU-минуты, и каждая генерация бьёт по балансу подписки. В v6 стандартный рендер в качестве —q 1 съедал примерно одну GPU-минуту. Высокое качество (—q 2) — около двух. Апскейл мог потянуть ещё минуту-полторы. Суммарно на одну финальную картинку уходило от трёх до пяти минут баланса. Седьмая версия оптимизировала процесс, но не везде одинаково. Базовая генерация стала быстрее и легче — около 0.7–0.8 GPU-минуты. А вот новый апскейлер, дающий разрешение до четырёх тысяч пикселей по длинной стороне (против двух тысяч в v6), потребляет примерно столько же, сколько раньше. Итого баланс между качеством и экономией сместился, но не кардинально — кошелёк всё же станет легче, хотя и не так быстро.

Какими стали лица и анатомия?

Многие считают, что Midjourney и так неплохо справлялась с человеческими лицами ещё в шестой версии. На самом деле — лишь на первый взгляд. Стоило попросить модель нарисовать конкретную эмоцию (скажем, лёгкую грусть с прищуром) или необычный ракурс (вид снизу, профиль три четверти), как начинались проблемы. Асимметрия глаз, «плывущая» линия челюсти, неестественные тени под носом. В v7 лицевая модель прошла серьёзную переработку. Эмоциональный спектр расширился — модель различает десятки микровыражений и корректно передаёт их даже при сложном освещении. Анатомия тела тоже подтянулась: пропорции конечностей стали правдоподобнее, а позы — динамичнее. Хотя, конечно, совсем сложные сцены (три человека взаимодействуют друг с другом в движении) по-прежнему остаются вызовом для любой генеративной модели.

Персонализация и память модели

Изюминка седьмой версии. Ещё в v6 разработчики экспериментировали с функцией —p (personalize), которая подстраивала выдачу под вкусы конкретного пользователя. Работало это довольно примитивно: нейросеть запоминала пару сотен «лайков» и на их основе слегка корректировала стилистику. Результат был заметен, но не более того. В v7 система персонализации выросла в полноценный модуль. Теперь модель анализирует не только стилевые предпочтения, но и типичные темы запросов, предпочтительные цветовые палитры, даже любимые соотношения сторон. Это удобно. Ведь со временем нейросеть буквально «подстраивается» под автора — и каждый новый промпт попадает ближе к тому, что задумывалось. Впрочем, не стоит перебарщивать с этой функцией: чрезмерная персонализация может сузить «коридор возможностей», и модель начнёт выдавать однотипные результаты. Золотая середина — время от времени отключать —p и экспериментировать «с чистого листа».

Midjourney v6 против v7: для кого что?

Задача не из лёгких — выбрать версию, когда обе работают параллельно. Шестая версия никуда не делась: её по-прежнему можно указать параметром —v 6.1 и получить привычный стабильный результат. Для многих обывателей — тех, кто генерирует картинки пару раз в неделю для постов в соцсетях или презентаций — разница между версиями не настолько критична, чтобы перестраивать рабочий процесс. Шестая модель предсказуема, документация по ней обширна, а комьюнити уже наработало тысячи проверенных промптов.

А вот для профессионалов, живущих в Midjourney ежедневно, v7 — это уже совсем другой уровень. Улучшенное понимание промптов, двойной контроль стилизации, продвинутый инпейнтинг и высокое разрешение апскейла — всё это экономит часы работы. Тем более что ряд студий и фрилансеров уже перешли на новую модель как на основную, и возвращаться к шестой для них — всё равно что пересесть с механики на автомат, а потом обратно. Можно, но зачем?

Подводные камни перехода

Нужно отметить, что миграция с v6 на v7 — процесс не без сюрпризов. Первое, с чем сталкиваются пользователи, — старые промпты дают другой результат. Это связано с тем, что v7 иначе интерпретирует веса и приоритеты внутри запроса. Промпт, который в шестой версии выдавал идеальную картинку, в седьмой может «сместить акценты» — фон станет более детализированным, а главный объект чуть отодвинется на второй план. Или наоборот. Придётся потратить время на пересборку любимых промптов, и к этому стоит быть готовым.

Второй нюанс — совместимость со сторонними сервисами. Многие пользователи работают через API или через ботов в Discord, настроенных на конкретные параметры v6. Обновление до v7 требует ревизии всех автоматизаций. Да и сама экосистема плагинов пока не полностью адаптировалась — часть расширений для Figma и Notion, подключённых к Midjourney, на момент выхода v7 работала с перебоями.

Что ждать дальше?

Буквально пару лет назад модели генерировали аморфные пятна, а сегодня выдают фотографии, которые сложно отличить от настоящих. Темп ускоряется. Команда Midjourney уже анонсировала работу над генерацией видео (пока в закрытой бета-стадии) и 3D-моделей. Если экстраполировать прогресс от v6 к v7, то восьмая версия может стать инструментом, генерирующим не просто изображения, а целые визуальные миры — с анимацией, освещением в реальном времени и интеграцией в игровые движки.

Переход между версиями — дело привычки, а не революции. Кто-то задержится на v6 ещё на полгода и будет по-прежнему получать достойный результат. Кто-то нырнёт в v7 с головой и через пару недель освоится настолько, что к старой модели уже не вернётся. Главное — не стоит гнаться за цифрой ради цифры. Инструмент хорош ровно настолько, насколько хорошо ты умеешь им пользоваться. А с каждой новой версией Midjourney возможностей для творчества становится только больше — и это по-настоящему вдохновляет. Удачи в экспериментах!