Нейросеть Midjourney 7: дата выхода и ожидаемые нововведения

Ещё каких-то три года назад генерация картинок по текстовому описанию казалась фокусом из научно-фантастического фильма, а сегодня миллионы людей по всему миру ежедневно набирают промты в окне Discord или на сайте Midjourney, получая за секунды то, на что у живого иллюстратора ушла бы неделя. Каждое крупное обновление этой нейросети приковывает внимание не только дизайнеров и художников, но и обывателей, которым просто нравится творить. Шестая версия — и особенно модель 6.1 — задала довольно высокую планку: детализация лиц вышла на принципиально иной уровень, текст на изображениях перестал выглядеть набором кракозябр, а стилизация стала куда более послушной. И всё-таки сообщество ждёт следующего шага, потому что подводные камни текущей версии никуда не делись. А значит, стоит разобраться, когда же появится Midjourney 7 и чего от неё ждать на самом деле.

Когда ждать релиз?

Вопрос на миллион. Дэвид Хольц — основатель и бессменный идеолог Midjourney — славится тем, что редко называет конкретные даты, а если и называет, то с оговоркой «примерно». Вспомнить хотя бы историю с пятой версией: её анонсировали на конец 2022-го, а в открытый доступ она попала лишь в марте 2023-го. С шестой моделью ситуация повторилась почти зеркально. Дело в том, что команда Midjourney — это всё ещё сравнительно компактная группа инженеров (около семидесяти человек по состоянию на начало 2025-го), и вся разработка ведётся без привычного для крупных корпораций графика релизов. Тем не менее по косвенным признакам — высказываниям Хольца в «офисных часах» на Discord, утечкам бета-тестеров и ритму прошлых обновлений — аналитики склоняются к тому, что седьмая версия может появиться в конце 2025 года, а скорее всего — в первом квартале 2026-го. Впрочем, не стоит воспринимать эти сроки как истину в последней инстанции. Ведь Хольц не раз подчёркивал: «Мы выпускаем, когда готово, а не когда обещали».

Отдельно стоит упомянуть промежуточные модели. Между крупными версиями команда традиционно выкатывает так называемые «точечные» апдейты: 6.1, потом 6.2 и так далее. Каждый из них содержит довольно ощутимые улучшения, но формально остаётся в рамках прежнего поколения. Не исключено, что перед полноценной «семёркой» появится ещё одна-две промежуточных модели, которые подготовят почву для большого скачка. Это связано с тем, что архитектурные изменения требуют обкатки на реальных пользователях, а не только на внутренних бенчмарках.

Чем нынешняя версия не устраивает?

Казалось бы, шестая модель — настоящий кладезь возможностей. Но ложка дёгтя всё-таки портит впечатление. Во-первых, руки. Да, ситуация стала значительно лучше по сравнению с версией 5.2, где шесть пальцев на одной кисти были скорее нормой, чем исключением. Однако проблема целиком не решена: при сложных позах — например, когда человек держит мелкий предмет или переплетает пальцы — артефакты всё ещё всплывают. Во-вторых, анатомическая консистентность. Сгенерировать одного и того же персонажа в разных ракурсах, да ещё и с одинаковыми чертами лица — задача не из лёгких. Инструмент —cref (character reference) помогает, но результат далёк от стопроцентной стабильности.

Ну и, конечно же, видео. Пока конкуренты вроде Runway Gen-3 и Sora от OpenAI штурмуют рынок генеративного видео, Midjourney остаётся по большей части «картиночным» сервисом. Команда тестировала собственный видеомодуль ещё в конце 2024-го, но до полноценного запуска дело так и не дошло. Для львиной доли пользователей это не критично — им хватает статичных изображений. Но профессионалы, работающие с анимацией и моушен-дизайном, всё чаще поглядывают в сторону конкурентов. А это уже тревожный звоночек.

Новая архитектура модели

Слухи. Их вокруг Midjourney 7 накопилось столько, что разложить по полочкам непросто. Наиболее обсуждаемая тема — переход на принципиально иную архитектуру генерации. До сих пор все версии строились на диффузионных моделях (diffusion models), которые по сути «очищают» шум, постепенно превращая случайный набор пикселей в осмысленную картинку. Этот подход отлично себя зарекомендовал, но у него есть потолок — прежде всего по скорости и по контролю над мелкими деталями.

Особый интерес вызывает так называемая гибридная архитектура, совмещающая диффузию с авторегрессионным подходом (тем самым, что лежит в основе языковых моделей вроде GPT). Такой тандем уже опробован в академических исследованиях, и результаты выглядят впечатляюще: модель лучше понимает пространственные отношения между объектами, точнее следует сложным промтам и допускает меньше «галлюцинаций». Хольц в одном из своих сообщений намекнул, что команда экспериментирует с «чем-то совершенно новым», хотя конкретики не раскрыл. Но сам факт того, что он упомянул архитектурный сдвиг, а не просто улучшение существующей модели, заслуживает внимания.

Что изменится в работе с текстом и промтами?

Одна из самых наболевших проблем — понимание естественного языка. Нынешняя модель довольно хорошо справляется с короткими описаниями: «кот в шляпе на фоне заката» или «средневековый замок в тумане». Но стоит усложнить запрос — добавить несколько персонажей, задать конкретные позы, описать взаимодействие между объектами — и результат становится непредсказуемым. Модель нередко игнорирует часть промта или путает, какой атрибут к какому объекту относится. Классический пример: «девушка в красном платье держит синий зонт» может превратиться в девушку с синим платьем и красным зонтом. Мелочь? Для коммерческого использования — нет.

Ожидается, что в седьмой версии промт-парсер станет значительно умнее. Кстати, эту задачу проще всего решить именно через интеграцию с языковой моделью — а Midjourney, как известно, уже обзавелась собственным текстовым ИИ для общения с пользователями внутри чата. Вполне логично предположить, что этот же языковой движок будет «переводить» пользовательский промт в набор точных инструкций для генеративной модели. Тем более что конкуренты — DALL-E 3 от OpenAI — уже пошли по этому пути, и разница в точности следования промту бросается в глаза.

Стоит ли ждать встроенный видеорежим?

Скорее да, чем нет. Хотя окончательной уверенности здесь быть не может. Хольц неоднократно говорил, что видеогенерация — стратегическое направление для компании, и что они не хотят выпускать «сырой» продукт просто ради галочки. Подход понятный. Ведь репутация Midjourney во многом строилась на том, что каждая версия задавала новый стандарт качества, а не просто наращивала количество функций.

Что известно на сегодняшний день? Внутренние тесты видеогенерации, судя по утечкам, показали довольно приличные результаты: пятисекундные клипы с плавным движением камеры, стабильной геометрией объектов и минимальным «плаванием» текстур. Это уже серьёзно. Однако до того уровня детализации, который Midjourney выдаёт в статичных изображениях, видеомодулю ещё далеко. И тут возникает развилка: выпустить базовый видеорежим как часть седьмой версии или довести его до блеска и выкатить позже отдельным обновлением. Многие считают, что команда выберет первый вариант, но на самом деле Хольц тяготеет к перфекционизму. Время покажет.

Редактирование и контроль над генерацией

Пожалуй, именно здесь скрывается главная изюминка ожидаемого обновления. Сейчас возможности редактирования в Midjourney довольно скромные: инпейнтинг (перерисовка выделенной области), вариации, зум-аут и панорамирование. Всё это работает, но ощущение контроля — скорее иллюзия. Пользователь задаёт направление, а модель интерпретирует его по-своему. Иногда результат превосходит ожидания, а иногда хочется закрыть вкладку и пойти рисовать самому.

В седьмой версии, по слухам, появится многослойное редактирование, близкое по логике к работе в Photoshop. Каждый элемент изображения — фон, персонаж, освещение, мелкие детали — можно будет корректировать отдельно, не затрагивая остальные. К тому же ожидается более продвинутый инструмент —sref (style reference), который позволит не просто копировать стиль с референса, а точно регулировать степень его влияния на результат. Для дизайнеров, работающих над серией иллюстраций в единой стилистике, это спасательный круг. Ведь сейчас добиться стилистического единообразия между несколькими генерациями — процесс довольно кропотливый и непредсказуемый.

Как изменится качество изображений?

Разрешение. Вот что волнует большую часть пользователей, занятых в полиграфии и рекламе. Текущий максимум Midjourney — примерно 1024 на 1024 пикселей в базовом режиме, с возможностью апскейла до 2048 и чуть выше. Для веба этого хватает, а вот для печати крупных форматов — баннеров, плакатов, обложек журналов — уже нет. Приходится прибегать к сторонним апскейлерам вроде Topaz Gigapixel или Magnific AI, что добавляет лишний шаг в рабочий процесс и не всегда даёт идеальный результат.

По предварительной информации, Midjourney 7 сможет генерировать изображения с нативным разрешением до 4096 пикселей по длинной стороне. Если это правда, то для большинства коммерческих задач внешние апскейлеры станут попросту не нужны. Нужно отметить, что рост разрешения неизбежно потянет за собой увеличение времени генерации и нагрузки на серверы. А серверная инфраструктура — это серьёзное вложение. Кошелёк компании станет ощутимо легче, и вполне вероятно, что эти затраты так или иначе отразятся на стоимости подписки. Впрочем, об этом чуть позже.

Что насчёт 3D и интерактивных сцен?

Неожиданный поворот. Буквально в начале 2025 года Хольц обмолвился, что команда работает над генерацией трёхмерных объектов на основе тех же текстовых промтов. И это не просто эксперимент ради эксперимента: речь идёт о создании полноценных 3D-ассетов, которые можно будет экспортировать и использовать в игровых движках, архитектурных визуализациях или дополненной реальности.

Сложно ли реализовать такое? Безусловно. Генерация трёхмерных моделей из текста — задача на порядок сложнее, чем создание плоской картинки. Нужно не только «нарисовать» объект, но и правильно выстроить его геометрию, текстуры, нормали и UV-развёртку. Но конкуренты — в частности, Meshy и Tripo — уже предлагают подобные инструменты, хотя качество там пока оставляет желать лучшего. Если Midjourney удастся внести свою лепту в это направление, сохранив привычный уровень эстетики, это может перевернуть рынок 3D-контента. Тем более что львиная доля инди-разработчиков и малых студий не может себе позволить штатного 3D-художника.

Стоит ли ожидать изменения цен?

Вопрос щепетильный. На момент написания статьи базовая подписка на Midjourney стоит десять долларов в месяц и включает примерно двести генераций. Стандартный план за тридцать долларов снимает ограничение по количеству, а Pro-подписка за шестьдесят долларов добавляет ускоренные режимы и «стелс-генерацию», скрывающую промты от посторонних глаз. Но каждый серьёзный апгрейд модели — это колоссальные вычислительные ресурсы. Тренировка одной крупной нейросети на кластере из нескольких тысяч GPU может обходиться в десятки миллионов долларов. И кто-то же должен за это платить.

Многие считают, что цены вырастут процентов на двадцать-тридцать. Но на самом деле у Midjourney есть козырь в рукаве: компания прибыльна уже сейчас (что редкость для ИИ-стартапов) и не зависит от внешних инвесторов, а значит — от их аппетитов. Хольц не раз подчёркивал, что хочет сохранить сервис доступным. Вероятнее всего, базовый тариф останется прежним, а вот за доступ к продвинутым функциям — 3D-генерации, видеорежиму, высокому разрешению — придётся доплачивать отдельно. Не сильно ударит по кошельку тех, кому эти функции реально нужны, и не затронет тех, кто просто хочет создавать красивые аватарки.

Конкуренция: кто наступает на пятки?

Было бы наивно рассматривать Midjourney 7 в вакууме. Рынок генеративных изображений за последние полтора года изменился до неузнаваемости. Главный соперник — Flux от Black Forest Labs — стремительно набирает популярность благодаря открытой архитектуре и отличной работе с текстом внутри картинок. Далее следует Stable Diffusion 3.5, который хоть и не блещет «коробочным» качеством, зато позволяет тонко настраивать модель под свои нужды и запускать генерацию локально, без подписок и серверов. А DALL-E 3, встроенный в ChatGPT, берёт массовостью: сотни миллионов пользователей получили доступ к генерации, даже не подозревая, что пользуются нейросетью.

Что же даёт Midjourney преимущество? Эстетика. Это слово повторяется в каждом обзоре, но от того не теряет актуальности. Картинки Midjourney обладают тем самым «вау-эффектом», который конкуренты пока не могут воспроизвести в полной мере. Да и сообщество вокруг платформы — живое, творческое, щедро делящееся промтами и находками — тоже внушительный актив. Но удержать лидерство на таком динамичном рынке без грандиозного обновления будет непросто. И именно поэтому ставки на седьмую версию столь высоки.

Чего хотят пользователи?

Если пробежаться по форумам, тематическим каналам в Discord и Reddit-сообществам, вырисовывается довольно чёткая картина. Больше всего людей раздражает непредсказуемость. Один и тот же промт, введённый дважды, может дать результат, различающийся не только в деталях, но и по общей композиции. С одной стороны, это часть магии — никогда не знаешь, что получишь. С другой — превращает работу в лотерею, особенно когда речь идёт о коммерческих проектах с жёсткими дедлайнами.

Следующий важный запрос — полноценный редактор внутри платформы. Возможность не просто перегенерировать область, а именно рисовать, двигать элементы, менять освещение. Что-то вроде Adobe Firefly, но с качеством Midjourney. К слову, веб-интерфейс Midjourney уже движется в эту сторону: появился базовый редактор с инпейнтингом, стало возможным использовать изображение как стартовую точку. Но до полноценного «холста» ещё далеко. И если в седьмой версии эту брешь закроют, реакция сообщества будет восторженной.

Midjourney и этика: нерешённые вопросы

Нельзя не упомянуть и обратную сторону медали. Генеративные нейросети — тема неоднозначная, и с каждой новой версией вопросы обостряются. Авторское право на сгенерированные изображения до сих пор остаётся юридической серой зоной. В США Бюро авторского права заняло позицию, согласно которой полностью сгенерированные ИИ-изображения не подлежат копирайт-защите. В Европе ситуация чуть мягче, но тоже далека от определённости.

Отдельный нюанс — обучающие датасеты. На чём именно тренировалась модель? Midjourney никогда не раскрывала полный список источников, и это вызывает раздражение у художников, чьи работы — предположительно — использовались без разрешения. Иски уже поданы, разбирательства тянутся. Ожидается, что в седьмой версии (или параллельно с ней) компания представит инструмент, позволяющий авторам исключить свои работы из обучающей выборки. Шаг запоздалый, но всё-таки в правильном направлении. Да и для самой компании это скорее необходимость, чем жест доброй воли — судебные разбирательства бьют по бюджету и по репутации одновременно.

Как подготовиться к обновлению?

Вот тут начинается практика. Не стоит ждать выхода седьмой версии сложа руки — время до релиза можно провести с пользой. Прежде всего стоит отточить навыки промт-инжиниринга на текущей модели. Дело в том, что понимание базовых принципов — структура промта, использование весов, негативных промтов, параметров вроде —stylize и —chaos — переносится между версиями. Человек, который хорошо чувствует логику нейросети, адаптируется к новой модели за считанные дни.

К тому же стоит задуматься о формировании собственной библиотеки стилей и референсов. Когда в седьмой версии улучшится —sref, наличие заранее подготовленного набора стилистических образцов сэкономит кучу времени. Ну, а если занимаетесь коммерческой генерацией — не лишним будет отслеживать правовую ситуацию в своей юрисдикции. Законодательство в этой сфере меняется стремительно, и то, что было нормой полгода назад, сегодня может оказаться в зоне риска.

Midjourney 7 — это не просто очередной апдейт с чуть более чёткими картинками. По всем признакам готовится нечто по-настоящему масштабное: новая архитектура, видеорежим, 3D-генерация, продвинутое редактирование и разрешение, которого наконец хватит для печати. Будет ли всё идеально на старте? Разумеется, нет. Первые недели после релиза всегда сопровождаются шероховатостями, перегруженными серверами и потоком обратной связи. Но именно так и рождаются лучшие инструменты — через честную обкатку и диалог с сообществом. Тем, кто уже пользуется Midjourney, остаётся запастись терпением и продолжать экспериментировать, а новичкам — самое время окунуться в мир генеративного ИИ, пока ещё не поздно оседлать волну. Удачи в творчестве — и пусть промты срабатывают с первого раза.