Сравнение версий Midjourney: что нового в v 6.1 и чего ждать от v7

Ещё пару лет назад генерация картинок по текстовому запросу казалась забавной игрушкой для гиков — нечто вроде калейдоскопа, который выдаёт причудливые, но откровенно кривоватые коллажи. Руки с семью пальцами, глаза на разных уровнях лица, надписи из инопланетных символов — всё это вызывало смех, а не восхищение. И вот буквально за двадцать с небольшим месяцев ситуация перевернулась с ног на голову: нейросети научились рисовать так, что отличить результат от фотографии или работы живого иллюстратора стало довольно непросто. Midjourney в этой гонке занимает особое место — инструмент, который последовательно двигался от «интересной штуки» к полноценному рабочему решению для дизайнеров, маркетологов и просто творческих людей. Но каждый крупный апдейт заставляет пользователей задаваться одним и тем же вопросом: а стоит ли привыкать к текущей версии, если на горизонте маячит следующая?

Все топовые нейросети в одном месте

Путь от пятой версии к шестой: краткая предыстория

Прежде чем разбирать нюансы v 6.1, не стоит забывать, откуда всё началось. Пятая версия Midjourney в своё время произвела настоящий фурор. Ведь именно с неё модель перестала «бояться» человеческих рук и научилась сносно выстраивать анатомию. Однако текст на изображениях по-прежнему оставался ахиллесовой пятой — любая надпись превращалась в абракадабру. Да и с пониманием длинных промптов дело обстояло скверно: стоило добавить больше трёх-четырёх деталей, как нейросеть начинала «забывать» половину из них. Шестая версия, выпущенная в декабре 2023 года, эти подводные камни во многом обошла, предложив совершенно новую архитектуру понимания промптов. А вместе с ней пришла и переработанная модель рендеринга текста на картинках — пусть не идеальная, но впервые действительно работоспособная.

Что изменилось в v 6.1?

Версию 6.1 команда Дэвида Хольца выкатила летом 2024 года, и на первый взгляд апдейт мог показаться «косметическим». На самом деле это не так. Львиная доля изменений пришлась на внутреннюю кухню — на то, как модель интерпретирует естественный язык и распределяет приоритеты между элементами запроса. Если раньше порядок слов в промпте имел критическое значение (первые слова «весили» больше последних), то в 6.1 баланс стал заметно ровнее. Это позволило описывать сложные сцены с несколькими персонажами, не прибегая к хитрым костылям вроде двойных двоеточий и весовых коэффициентов. К слову, сами весовые коэффициенты никуда не делись, но необходимость в них ощутимо снизилась.

Текстуры и детализация. Вот где прогресс бросается в глаза даже обывателю. В v 6.0 при генерации крупных планов — скажем, портрета — кожа нередко выглядела «пластиковой», словно покрытой слоем тонального крема из рекламного ролика. Версия 6.1 добавила в текстуры то, что фотографы называют «микроконтрастом»: поры, мельчайшие морщинки, неравномерность цвета кожи. Результат — изображения, которые тяготеют к документальной эстетике, а не к глянцевому гламуру. Тем более что и с тканями ситуация аналогичная: переплетение нитей на крупном плане свитера или фактура льняной рубашки стали выглядеть впечатляюще реалистично.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

Отдельно стоит упомянуть рендеринг текста. В шестой версии нейросеть впервые начала худо-бедно воспроизводить латинские надписи, но с кириллицей и иероглифами дело было совсем плохо. В 6.1 команда расширила обучающую выборку, и теперь короткие фразы (до четырёх-пяти слов) латиницей воспроизводятся почти безошибочно. С кириллицей всё-таки хуже — ошибки встречаются примерно в каждом третьем поколении, но по сравнению с предшественницей это грандиозный скачок. Ведь раньше кириллический текст не получался вообще.

Стоит ли менять привычные промпты?

Переход между подверсиями — процесс не сложный, но кропотливый. Многие пользователи, освоившие v 6.0, наработали целые библиотеки промптов, отточенных под конкретные задачи. И тут всплывает неприятный нюанс: промпты, идеально работавшие в 6.0, в 6.1 могут выдавать несколько иные результаты. Дело в том, что улучшенный парсер языка иначе расставляет приоритеты. Слово «cinematic», которое раньше добавляло драматичное освещение и характерную цветовую палитру, в 6.1 срабатывает мягче — модель словно «размазывает» его влияние по всей сцене, а не концентрирует на светотени. Нужно ли это учитывать? Безусловно. Но катастрофы тут нет — достаточно потратить вечер-другой на тестирование старых заготовок.

А вот что действительно стоит пересмотреть — так это подход к негативным промптам (параметр —no). В 6.1 он работает точнее. Если раньше запрос —no text, watermark, blur иногда «выплёскивал ребёнка вместе с водой», убирая не только нежелательные элементы, но и часть полезной детализации, то теперь фильтрация стала более скрупулёзной. Модель лучше понимает, что именно нужно исключить, не затрагивая остальное. Это удобно. Ведь для коммерческих задач — упаковка, баннеры, мокапы — чистота результата критически важна.

Скорость и стоимость генерации

Вопрос, который бьёт по бюджету напрямую. Midjourney работает по подписной модели, и количество «быстрых» генераций ограничено тарифным планом. В v 6.0 одно изображение в максимальном разрешении (через апскейл) съедало довольно внушительный объём GPU-минут. Версия 6.1 оптимизировала этот процесс примерно на пятнадцать-двадцать процентов — точные цифры команда не раскрывает, но пользователи в профильных сообществах подтверждают, что месячного лимита теперь хватает ощутимо дольше. К тому же появился так называемый «turbo mode» с удвоенной скоростью за удвоенную стоимость GPU-минут. Не сильно ударит по кошельку, если пользоваться им точечно — например, когда горит дедлайн и нужно перебрать двадцать вариантов за полчаса.

Чем версия 6.1 всё ещё разочаровывает?

Было бы нечестно рисовать исключительно радужную картину. Ложка дёгтя тут вполне осязаемая. Во-первых, модель по-прежнему с трудом справляется со сложной пространственной логикой. Попросить нейросеть нарисовать «кошку, сидящую под столом, на котором стоит ваза справа от книги» — задача, которая и в 6.1 выполняется через раз. Пространственные предлоги для Midjourney всё ещё остаются подводными камнями. Во-вторых, руки. Да, они стали лучше. Но «лучше» — не значит «идеально». На групповых сценах, где несколько персонажей взаимодействуют (рукопожатие, передача предмета), аномалии всплывают с удручающей регулярностью.

Ну и, конечно же, стилистическая однородность. Midjourney довольно часто тяготеет к определённой «фирменной» эстетике — чуть перенасыщенные цвета, драматичный свет, кинематографичная атмосфера. Это красиво, но для тех, кому нужна, скажем, плоская минималистичная иллюстрация или аутентичная стилизация под советский плакат, модель приходится долго «уговаривать». Стилевой диапазон расширился по сравнению с пятой версией, однако до полной гибкости ещё далеко.

Что известно о Midjourney v7?

Слухи. Вот чем наполнен информационный фон вокруг седьмой версии. Команда Хольца традиционно щепетильно относится к анонсам и не раскрывает деталей до последнего момента. Впрочем, кое-какие фрагменты мозаики собрать всё же удаётся — из интервью самого Хольца, из утечек в Discord-сообществе и из патентных заявок компании. Особый интерес вызывает направление, связанное с «пониманием сцены» (scene understanding). Если верить инсайдерам, v7 получит принципиально новый модуль, который будет анализировать промпт не как набор слов, а как описание трёхмерного пространства с объектами, источниками света и камерой.

Что это означает на практике? Возможность указывать точку зрения камеры не абстрактными словами вроде «low angle shot», а конкретными параметрами — угол наклона в градусах, фокусное расстояние объектива, расстояние до объекта. Звучит как мечта любого фотографа. Тем более что вместе с этим, по слухам, придёт и нативная поддержка многослойной генерации: передний план, средний и задний будут просчитываться отдельно, а потом «склеиваться» в финальное изображение. Это решило бы извечную проблему с размытыми или нелогичными фонами, на которые натыкаешься при генерации портретов.

Видео. Вот направление, которое будоражит сообщество сильнее всего. Конкуренты — Sora от OpenAI, Runway Gen-3, Kling от Kuaishou — уже вовсю генерируют видеоролики, пусть и с ограничениями. Midjourney до сих пор остаётся исключительно «картиночной» нейросетью. Но Хольц неоднократно намекал, что работа над видеомоделью идёт полным ходом, и некоторые наблюдатели уверены: именно v7 станет той версией, которая объединит статику и движение. Впрочем, скептики резонно замечают, что генерация видео — задача совершенно иного порядка сложности, и ожидать полноценного инструмента в первом же релизе наивно.

Сроки выхода v7: когда ждать?

Конкретных дат нет. Это стоит признать честно. Хольц в одном из эфиров в начале 2025 года обмолвился, что «к концу года пользователи увидят нечто принципиально новое», но оговорился: сроки могут сдвинуться. Если ориентироваться на историю предыдущих релизов, то между мажорными версиями проходило от семи до двенадцати месяцев. Версия 6 вышла в декабре 2023-го, а 6.1 — летом 2024-го. Следуя этой логике, v7 может появиться в конце 2025-го или в начале 2026-го. Но нейросетевая индустрия сейчас развивается с такой скоростью, что любой прогноз — не более чем гадание на кофейной гуще. А если конкуренты выкатят что-то грандиозное раньше, команде Midjourney придётся ускориться.

Стоит ли ждать или работать с тем, что есть?

Извечная дилемма. Многие грезят о «той самой» версии, которая будет идеально понимать любой запрос, рисовать руки без ошибок и генерировать кинематографичное видео по щелчку. Но реальность такова: каждая новая версия решает старые проблемы и одновременно привносит новые нюансы, к которым нужно адаптироваться. Версия 6.1 — добротный рабочий инструмент, который уже сейчас закрывает львиную долю задач в коммерческом дизайне, контент-маркетинге и иллюстрации. Ждать v7, сложив руки, нет смысла: навыки промпт-инжиниринга, наработанные в текущей версии, никуда не денутся и станут фундаментом для освоения следующей.

К тому же стоит задуматься о конкурентной среде. Midjourney — не единственный игрок на рынке. DALL·E 3 от OpenAI глубоко интегрирован в экосистему ChatGPT, Stable Diffusion предлагает полную открытость и возможность запуска на собственном «железе», а Flux от Black Forest Labs наступает на пятки по качеству фотореализма. В такой обстановке привязываться к одному инструменту довольно рискованно. И всё же Midjourney сохраняет одно неоспоримое преимущество — невероятно низкий порог входа. Ни установки, ни мощной видеокарты, ни технических знаний. Только промпт и воображение.

Практические советы для перехода между версиями

С чего начать освоение 6.1, если вы застряли на предыдущей модели? С малого. Не стоит сразу переносить все рабочие проекты — разумнее выделить тестовую «песочницу» и прогнать через неё десяток-другой привычных промптов. Сравнение результатов покажет, где новая версия сильнее, а где нужна подстройка формулировок. Нельзя не упомянуть и параметр —style raw, который в 6.1 получил второе дыхание: он ещё сильнее «снимает» фирменный стиль Midjourney и приближает результат к необработанной фотографии. Для продуктовой съёмки и мокапов это настоящий спасательный круг.

Все топовые нейросети в одном месте

Следующий важный момент — работа с соотношениями сторон. Midjourney v 6.1 стала заметно лучше адаптировать композицию под нестандартные форматы. Раньше вертикальный промпт с соотношением 9:16 часто «обрезал» голову персонажу или неудачно кадрировал пейзаж. Теперь модель умнее распределяет элементы по кадру, хотя при экстремальных пропорциях (скажем, 1:3 для длинного баннера) аномалии всё ещё случаются. Да и сам процесс «аутпейнтинга» — расширения картинки за пределы исходного кадра — в 6.1 вызывает куда меньше артефактов на стыках.

Кому v 6.1 подойдёт лучше всего?

Контент-мейкерам и SMM-специалистам, которым нужен стабильный визуальный поток без глубокого погружения в технические настройки. Иллюстраторам, использующим нейросеть как «генератор идей» для последующей доработки в Photoshop или Procreate. Дизайнерам интерьеров, которые собирают мудборды и концепции для клиентов — тут улучшенная детализация текстур творит чудеса. А вот для тех, кто занимается анимацией или нуждается в точном контроле над позами персонажей, модель пока остаётся не самым удобным выбором. Тут, впрочем, помогают сторонние решения вроде ControlNet в связке со Stable Diffusion, но это уже совершенно другая история и другой уровень технической вовлечённости.

Взгляд в перспективу

Индустрия генеративных изображений сейчас напоминает автомобилестроение начала XX века: каждый год модели меняются до неузнаваемости, стандарты ещё не устоялись, а сегодняшний «флагман» завтра рискует оказаться вчерашним днём. Midjourney в этом водовороте чувствует себя уверенно — команда маленькая (около сорока человек по последним оценкам), но чрезвычайно сфокусированная. Они не распыляются на чат-ботов, поисковые движки и прочие параллельные продукты, а вкладывают всё в одно направление. Это внушает определённый оптимизм.

Версия 6.1 — не революция, а уверенная эволюция, которая сделала и без того мощный инструмент ещё более отзывчивым и предсказуемым. Седьмая же версия, если верить даже самым осторожным прогнозам, обещает стать именно тем скачком, который изменит правила игры: полноценное понимание трёхмерной сцены, возможная поддержка видео, радикально улучшенная работа с текстом и пространственной логикой. Не стоит сидеть и ждать её сложа руки — куда разумнее оттачивать мастерство на том, что уже доступно. Ведь когда v7 всё-таки выйдет, преимущество получат те, кто накопил опыт, а не те, кто копил ожидания. Удачи в экспериментах — и пусть нейросеть послушно следует за вашим воображением, а не наоборот.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *