Ещё пару лет назад генерация изображений по текстовому описанию казалась фокусом из далёкого будущего — чем-то вроде телепортации или колонии на Марсе. А сегодня дизайнеры, маркетологи и просто любопытные обыватели ежедневно скармливают нейросетям миллионы промтов, получая на выходе картинки, от которых порой перехватывает дыхание. Midjourney за эти годы прошла путь от забавной игрушки в Discord до полноценного рабочего инструмента, на который всерьёз опирается львиная доля креативной индустрии. И всё же каждая новая версия — это не просто «ещё красивее», а целый пласт технических решений, которые меняют правила игры. Именно поэтому к грядущей восьмой версии стоит присмотреться внимательнее, разобрав по полочкам всё, что известно на сегодняшний день.
Что изменилось со времён седьмой версии?
Прежде чем грезить о будущем, нужно вспомнить отправную точку. Midjourney v7, запущенная ранее в 2025 году, принесла довольно ощутимый скачок в реалистичности. Руки перестали выглядеть так, будто их рисовал пятилетний ребёнок в темноте. Текст на изображениях — давняя головная боль всех генеративных моделей — наконец-то стал читаемым, хотя и не без огрехов. К тому же появилась возможность генерировать людей, которых сложно отличить от фотографий из стоковых библиотек. Но ложка дёгтя всё-таки примешалась: сложные многофигурные композиции по-прежнему вызывали у модели «замешательство», а стилистическая гибкость — способность одинаково хорошо рисовать и в духе Караваджо, и в духе комикса Marvel — оставляла желать лучшего. Именно эти подводные камни, судя по утечкам и официальным намёкам, разработчики и взялись устранять в восьмой итерации.
Новая архитектура модели
Сердце любой нейросети. Дэвид Хольц, основатель Midjourney, ещё в начале года упоминал в беседах на Discord, что команда экспериментирует с гибридной архитектурой, объединяющей сильные стороны диффузионных моделей и трансформеров. Дело в том, что чистая диффузия прекрасно справляется с текстурами и мелкими деталями, но плохо «понимает» пространственные связи между объектами. А трансформер, наоборот, хорошо ловит контекст и логику промта, однако склонен к «размазыванию» мелочей. Слияние двух подходов — задача не из лёгких, и пока ни один конкурент (ни Stable Diffusion, ни DALL·E) не продемонстрировал по-настоящему убедительного решения. Если у Midjourney получится — это станет довольно серьёзным технологическим прорывом, который сместит расстановку сил на рынке генеративных изображений.
Стоит ли ждать прорыва в реализме?
Безусловно. Но тут нужно отметить один важный нюанс. Реализм в привычном понимании — когда картинка неотличима от фото — уже практически достигнут в седьмой версии. Восьмая же, по слухам, сосредоточится на физической корректности. Отражения в зеркалах, правильные тени при нескольких источниках света, достоверное преломление воды — всё это до сих пор приходилось «вымаливать» у нейросети, подбирая промт по десять-пятнадцать минут. Хольц как-то обмолвился, что новая модель обучена на синтетических данных, сгенерированных физическими движками наподобие тех, что используются в Unreal Engine 5. Это связано с тем, что реальные фотографии не всегда содержат «чистые» примеры физических явлений — шум, артефакты сжатия и прочие помехи мешают модели усвоить закономерности. А вот рендер из игрового движка — идеально выверенная среда. Впрочем, насколько эффективной окажется такая стратегия, покажет только практика.
Все топовые нейросети в одной подписке! 🚀
Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».
Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL
Работа с текстом на изображениях
Больное место. Ведь именно по корявым надписям чаще всего и «палят» сгенерированный контент. В седьмой версии дело сдвинулось: короткие слова из четырёх-пяти букв Midjourney воспроизводила довольно уверенно. Но стоило попросить развёрнутый заголовок или, скажем, меню ресторана на изображении — и начиналась полная наляпистость. Разработчики, по имеющимся сведениям, интегрируют в восьмую версию отдельный модуль распознавания и генерации текста, работающий параллельно с основной моделью. Проще говоря, нейросеть сначала создаёт изображение, оставляя «слоты» под текстовые элементы, а затем специализированная подсистема вписывает туда буквы с правильным кернингом и перспективой. Подход не новый — похожую схему использует Ideogram, — но если Midjourney доведёт его до ума, это снимет огромную головную боль у дизайнеров, которые сейчас дорисовывают текст вручную в Photoshop.
Веб-интерфейс и прощание с Discord?
Одна из самых обсуждаемых тем в сообществе. Midjourney долгое время оставалась единственным серьёзным генеративным инструментом, привязанным к мессенджеру. Это, мягко говоря, неоднозначное решение: с одной стороны, Discord-сообщество стало настоящим кладезём идей и вдохновения, с другой — работать в чате, где мелькают сотни чужих генераций, было мучительно неудобно. Веб-версия alpha.midjourney.com уже функционирует, но пока выглядит скорее как витрина, нежели полноценная рабочая среда. К запуску восьмой версии, по словам разработчиков, веб-интерфейс должен получить полноценный редактор — с возможностью рисовать маски, задавать зоны влияния промта, управлять слоями и композицией прямо в браузере. Да и мобильное приложение, анонсированное ещё в 2024-м, наконец должно выйти из стадии вечной беты. Уход от Discord — не прихоть, а необходимость: корпоративные клиенты, которые приносят львиную долю выручки, попросту не могут вести рабочие процессы через игровой мессенджер.
Видеогенерация — миф или реальность?
Вот тут начинается самое интересное. Конкуренты — Runway с Gen-3, Pika, китайский Kling — уже вовсю генерируют ролики длительностью от пяти до пятнадцати секунд. А Midjourney до сих пор ограничивается статичными изображениями. Многие считают, что компания отстала безнадёжно, но на самом деле команда Хольца всегда тяготела к стратегии «лучше позже, но качественнее». Утечки из закрытых каналов Discord свидетельствуют о том, что видеомодуль действительно разрабатывается и внутренние тесты идут как минимум с осени 2024 года. Результаты, которые мелькали в скриншотах (их достоверность, впрочем, никто не подтвердил), выглядели впечатляюще: плавное движение камеры, правдоподобная физика ткани и волос, отсутствие характерного «плывущего» эффекта. Станет ли видеогенерация частью Midjourney v8 или же её выпустят отдельным продуктом — пока неясно. Но то, что она появится в ближайшие месяцы, сомнений практически не вызывает.
3D-модели и интеграция с игровыми движками
Ещё один горизонт, к которому тянется Midjourney. Хольц неоднократно говорил, что конечная цель компании — не просто красивые картинки, а создание целых миров. В практическом смысле это означает возможность экспортировать результат генерации в формате 3D-меша с текстурами, пригодного для импорта в Unity или Unreal. Кстати, технология NeRF (Neural Radiance Fields) и её наследники (вроде Gaussian Splatting) уже позволяют восстанавливать трёхмерную сцену из нескольких ракурсов, а Midjourney умеет генерировать согласованные виды одного объекта с разных сторон. Соединить два конца не так уж и сложно — по крайней мере, в теории. На практике же подводных камней хватает: качество геометрии, корректные UV-развёртки, оптимизация полигонов. Но даже черновой результат мог бы стать настоящим спасательным кругом для инди-разработчиков, у которых нет бюджета на штатного 3D-художника.
Что насчёт цен и подписок?
Кошелёк — тема щепетильная. Сейчас базовый тариф Midjourney стоит 10 долларов в месяц, стандартный — 30, а профессиональный (с «быстрыми» генерациями и режимом stealth) — 60. По мере того как модель становится сложнее, растут и вычислительные затраты. Это неизбежно. Однако прямого повышения цен, судя по всему, разработчики пока не планируют. Вместо этого, вероятнее всего, появится новый «ультра»-тариф (предположительно за 120 долларов), ориентированный на студии и агентства, — с приоритетным доступом к видеогенерации, расширенными лимитами и API. А вот базовый план может лишиться части функций восьмой версии, что, конечно, серьёзно ударит по кошельку тех, кто привык генерировать по чуть-чуть, не переплачивая. Впрочем, бесплатную пробную генерацию для новых пользователей, скорее всего, сохранят — это слишком мощный маркетинговый инструмент, чтобы от него отказываться.
Персонализация и «стилевая память»
Одна из самых ожидаемых функций. В текущей версии уже есть параметр —style и возможность сохранять «стилевые коды», но работает всё это довольно грубо. Идея в том, чтобы модель запоминала эстетические предпочтения конкретного пользователя — цветовую палитру, характер освещения, любимые ракурсы — и автоматически учитывала их при каждой генерации. Нечто похожее на алгоритмическую ленту в социальных сетях, только для визуального стиля. К тому же, по слухам, появится возможность загружать собственные референсы не по одному, а целыми мудбордами — десять-пятнадцать изображений, из которых нейросеть извлечёт общий знаменатель. Для бренд-дизайнеров и арт-директоров такая функция станет настоящим кладезём возможностей: не нужно будет каждый раз в промте прописывать «тёплые тона, мягкий свет, зернистость плёнки 35 мм» — модель сама это усвоит и запомнит.
Этика и авторское право
Тема, от которой не уйти. Судебные иски от художников, споры о fair use, законодательные инициативы в ЕС и США — весь этот антураж сопровождает генеративный ИИ с момента его рождения. Midjourney неоднократно попадала под огонь критики за то, что модель обучена на миллиардах изображений, собранных в интернете без явного согласия авторов. В восьмой версии, судя по сигналам от команды, появится режим «opt-out» — возможность для правообладателей исключить свои работы из обучающей выборки. Решение не идеальное, ведь доказать факт копирования стиля (а не конкретной картинки) — задача юридически почти невыполнимая. Но сам жест в сторону прозрачности стоит оценить. Кроме того, ожидается усиление фильтров на генерацию deepfake-контента с реальными людьми, что особенно актуально в год выборов в нескольких странах. Разумеется, обойти эти ограничения всё равно смогут те, кто захочет, — но юридический «щит» для самой компании окажется нелишним.
Скорость генерации и оптимизация
Время ожидания бросается в глаза. В седьмой версии одна картинка в режиме relax генерировалась от тридцати секунд до двух минут, а в fast-режиме — около десяти-пятнадцати секунд. Для восьмой модели, которая значительно тяжелее, цифры могли бы вырасти вдвое. Но разработчики, похоже, нашли выход: многоступенчатый конвейер, при котором первичный «эскиз» создаётся маленькой быстрой моделью, а финальная детализация «достраивается» уже тяжёлой. Такой подход (его иногда называют cascade diffusion) позволяет сократить время генерации при сохранении качества. Нужно отметить, что и серверная инфраструктура компании за последний год выросла внушительно — Midjourney арендует кластеры NVIDIA H100, а по некоторым сведениям, уже тестирует новые чипы Blackwell. Так что конечный пользователь, вероятнее всего, разницы в скорости не ощутит. Или даже получит прирост.
Конкуренция: кто наступает на пятки?
Рынок генеративных изображений за последний год изменился до неузнаваемости. Буквально два года назад Midjourney безраздельно правила бал, а сейчас конкурентов — целая россыпь. Stable Diffusion 3.5 от Stability AI привлекает опенсорс-сообщество и тех, кому важна полная автономность (модель запускается локально, на собственном GPU). DALL·E 4 от OpenAI всё теснее интегрируется с ChatGPT, предлагая бесшовный опыт «текст плюс картинка». А китайские игроки — ERNIE от Baidu и MidReal — и вовсе демпингуют, предлагая сопоставимое качество за сущие копейки. Хольц не раз подчёркивал, что гонку за дешевизной его команда вести не собирается — ставка делается на качество и «вау-эффект». И всё же давление конкурентов ощущается: именно оно, вероятно, подтолкнуло ускорить разработку восьмой версии, которую первоначально планировали на конец 2025 года, а теперь, по слухам, могут выпустить уже осенью.
Что изменится для профессиональных пользователей?
Львиная доля выручки Midjourney приходится на корпоративный сегмент. Рекламные агентства, архитектурные бюро, издательства — все они нуждаются не просто в красивых картинках, а в контролируемом рабочем процессе. В этом направлении разработчики, похоже, копают глубоко. Во-первых, ожидается полноценный API с поддержкой пакетной генерации — возможность отправить сто промтов за один запрос и получить результат в виде архива. Во-вторых, появится расширенная система «сидов» и детерминированной генерации, при которой один и тот же промт с одним и тем же сидом будет всегда давать идентичный результат. Для креативных команд это критично: арт-директор утверждает конкретное изображение, а дизайнер потом воспроизводит его с минимальными изменениями. Ну и, наконец, интеграция с Adobe Creative Cloud и Figma — тема, которая муссируется уже больше года. Прямого подтверждения от Midjourney нет, но партнёрские переговоры, по словам инсайдеров, идут.
Когда ждать релиза?
Точной даты никто не называл. Это вообще фирменный стиль Midjourney — компания редко делает громкие анонсы с обратным отсчётом. Обычно всё происходит почти внезапно: пост в Discord, несколько тестовых генераций от сотрудников — и вот уже новая версия доступна в режиме альфа. Судя по темпу обновлений (между v6 и v7 прошло около восьми месяцев), релиз v8 можно ожидать ориентировочно в сентябре–ноябре 2025 года. Впрочем, сроки могут сдвинуться — тем более что Хольц славится перфекционизмом и готов задерживать выпуск, если результат не дотягивает до его внутренних стандартов. А они, надо признать, довольно высоки.
Мир генеративных изображений движется с такой скоростью, что прогнозы устаревают быстрее, чем просыхают чернила. И всё же одно можно сказать наверняка: Midjourney v8 — не просто инкрементальное обновление, а попытка совершить качественный рывок и закрепить за собой звание лидера в стремительно растущей индустрии. Стоит ли ждать с нетерпением? Однозначно да. Не стоит только превращать ожидание в бездействие — лучше уже сейчас осваивать седьмую версию, экспериментировать с промтами, набивать руку. Ведь когда восьмёрка выйдет, те, кто уже свободно говорит на «языке Midjourney», смогут выжать из неё максимум. А это — настоящее конкурентное преимущество, которое окупится многократно.

