Все версии Midjourney: история обновлений и главные отличия

Ещё каких-то три-четыре года назад само словосочетание «нейросеть-художник» звучало для обывателя почти фантастически — нечто из фильмов про далёкое будущее, не имеющее отношения к повседневной жизни. Но технологии рванули вперёд с такой скоростью, что сегодня генерация изображений по текстовому описанию стала рутиной для дизайнеров, маркетологов и просто любителей красивых картинок. Midjourney среди всех подобных инструментов занимает особое место — во многом благодаря художественному стилю, который с первых версий тяготел к живописности, а не к фотографической сухости. Однако за время существования сервис прошёл через столько метаморфоз, что разобраться в отличиях между версиями без путеводителя довольно сложно. А начать стоит с самых истоков.

Все топовые нейросети в одном месте

С чего всё начиналось: первая и вторая версии

Ранний период. Midjourney версии 1 (V1) появилась в феврале 2022 года, и впечатления от неё у первых пользователей были, мягко говоря, неоднозначными. Картинки выходили размытыми, с явными артефактами, а лица людей напоминали скорее восковые фигуры, попавшие под дождь. Разрешение оставляло желать лучшего — изображения генерировались в скромном формате, и детализация в них практически отсутствовала. Но ведь именно в этом и был весь кайф первопроходца: сама возможность получить из текста хоть какую-то осмысленную визуализацию казалась чудом. Да и бомонд технологических энтузиастов принял инструмент с распростёртыми объятиями, прощая ему все огрехи.

Версия 2 (V2) подоспела уже в апреле того же года. Прогресс бросался в глаза: текстуры стали чуть более проработанными, цветовая палитра — богаче, а общая композиция снимков перестала выглядеть случайной мешаниной пятен. Впрочем, подводные камни никуда не делись. Руки и пальцы по-прежнему были главным кошмаром нейросети — шесть пальцев на одной руке встречались так часто, что стали своего рода мемом в сообществе. И всё же V2 заложила фундамент: команда Дэвида Хольца (основателя проекта) явно нащупала направление, в котором стоило двигаться дальше.

Третья версия — первый серьёзный скачок

Выход V3 в июле 2022 года многие назвали моментом, когда Midjourney «встала на ноги». Дело в том, что именно в этой итерации появилось заметное улучшение когерентности изображения — проще говоря, нейросеть стала лучше понимать контекст запроса и выстраивать элементы картинки в логичную сцену. Если раньше просьба «рыцарь стоит на холме перед закатом» могла выдать нечто вроде рыцаря, парящего в небе рядом с холмом, то V3 гораздо реже допускала подобные промахи. К тому же детализация выросла ощутимо. Текстуры металла, ткани и дерева стали напоминать что-то осязаемое. Нельзя не упомянуть и художественную стилизацию: третья версия тяготела к слегка сюрреалистической, «сновидческой» эстетике, которую многие пользователи полюбили и которую потом даже ностальгически вспоминали на фоне более поздних, «вылизанных» обновлений.

Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸

Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.

Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL

Что изменилось в четвёртой версии?

Грандиозный рывок. Именно так охарактеризовали V4 большинство обозревателей, когда она вышла в ноябре 2022 года. Вся суть в том, что команда Midjourney полностью переработала архитектуру модели, и результат говорил сам за себя. Разрешение и детализация подскочили настолько, что генерации стали пригодны для полиграфии — пусть и с оговорками. Добротный портрет человека впервые перестал вызывать оторопь: глаза обрели естественный блеск, пропорции лица стали приемлемыми, а те самые злополучные пальцы хоть и оставались проблемой, но гораздо реже превращались в анатомический хоррор. К слову, в V4 появилась система —stylize, позволяющая регулировать степень «художественности» результата. При низких значениях картинка тяготела к реализму, при высоких — к абстрактной живописности.

Ещё один нюанс четвёртой версии — расширение понимания промтов. Нейросеть стала лучше «разбираться» в сложных описаниях, содержащих несколько объектов с разными характеристиками. Раньше запрос типа «красная кошка сидит на синем диване рядом с белой вазой» мог легко перемешать цвета между объектами. В V4 такие ошибки случались реже. Но есть и ложка дёгтя: многие пользователи заметили, что четвёртая версия стала менее «дикой» в художественном плане, утратив часть той самобытной сюрреалистичности, которой славились ранние итерации. Впрочем, для коммерческих задач это было скорее плюсом.

Midjourney V5 и её подверсии: эпоха фотореализма

Март 2023 года стал переломным. V5 буквально взорвала сообщество генеративного искусства. Фотореализм достиг такого уровня, что изображения, созданные нейросетью, стали путать с настоящими фотографиями — и это не преувеличение. В представлении многих людей искусственный интеллект до этого момента создавал «мазню с налётом магии», а тут вдруг — портрет, неотличимый от студийной съёмки. Кожа с порами и мелкими несовершенствами, отражения в зрачках, правдоподобная глубина резкости — всё это впервые стало доступно без мучительного подбора параметров.

Отдельно стоит упомянуть подверсию V5.1, появившуюся в мае 2023-го. Она принесла режим RAW — для тех, кому нужен менее «приукрашенный» результат, ближе к документальной фотографии. А в июне того же года команда выпустила V5.2, где ещё сильнее подкрутили эстетику и добавили функцию Zoom Out. Эта штука позволяла расширить границы уже сгенерированного изображения, как бы «отъезжая камерой назад» и дорисовывая окружение. Для дизайнеров, которым нужно было вписать картинку в горизонтальный баннер или вертикальный постер, Zoom Out стал настоящим спасательным кругом. Ведь раньше приходилось либо мириться с обрезкой, либо дорисовывать вручную в Photoshop.

Шестая версия: когда текст перестал быть проклятием

Декабрь 2023 года. Midjourney V6 вышла в альфа-режиме и сразу приковала внимание. Главная изюминка — корректная генерация текста внутри изображений. Казалось бы, мелочь. Но для всех, кто хоть раз пытался заставить нейросеть написать на вывеске слово «OPEN» без ошибок, это было событие почти праздничного масштаба. Ранние версии превращали любой текст в бессмысленный набор символов, напоминающий инопланетную письменность. V6 же научилась воспроизводить надписи на латинице довольно сносно (с кириллицей дело обстояло сложнее, но прогресс всё равно впечатлял).

Помимо текста, шестая версия принесла ещё один внушительный апгрейд — улучшенное следование промту. Нейросеть стала скрупулёзнее разбирать длинные описания, разделять объекты и их атрибуты, понимать пространственные отношения вроде «перед», «за», «над». Это связано с тем, что в основу V6 легла полностью новая модель, обученная на значительно расширенном датасете. Да и сам стиль «по умолчанию» сдвинулся в сторону кинематографичности: изображения стали напоминать кадры из голливудских фильмов с характерной цветокоррекцией, мягким боке и драматичным освещением. Многие пользователи это оценили. Но нашлись и те, кто жаловался, что без дополнительных параметров картинки выходят «слишком красивыми», чересчур обработанными — как с обложки глянцевого журнала.

Стоит ли гнаться за самой свежей моделью?

Вопрос неоднозначный. Дело в том, что каждая новая версия Midjourney — это не просто «апгрейд», а скорее смена художественной парадигмы. Третья версия с её сюрреалистичным духом до сих пор любима теми, кто создаёт концепт-арт для фэнтези и хоррор-проектов. Четвёртая — золотая середина между художественностью и контролем. Пятая — эталон фотореализма. Шестая — инструмент для щепетильных коммерческих задач, где важна точность соответствия описанию. И каждая из них доступна через параметр —v (например, —v 5.2), так что ничто не мешает переключаться между ними в зависимости от задачи.

К тому же не стоит забывать про стилевые параметры, которые накапливались от версии к версии. Один из самых колоритных — —chaos, регулирующий степень «безумия» генерации. При высоких значениях нейросеть творит чудеса абстракции, выдавая совершенно непредсказуемые результаты. А —quality влияет на детализацию и время рендеринга. Ну и, конечно же, —ar для соотношения сторон — штука элементарная, но без неё львиная доля практических задач просто не решалась бы.

Niji — ответвление для любителей аниме-стилистики

Нельзя не упомянуть отдельную ветку Midjourney, заточенную под аниме и манга-стилистику. Модель Niji (от японского 二次, «двумерный») разрабатывалась совместно со Spellbrush — студией, специализирующейся на аниме-арте. Первая её итерация появилась параллельно с V4, а затем вышла Niji V5, а следом — Niji V6. Для тех, кто грезит об иллюстрациях в духе Studio Ghibli или Makoto Shinkai, Niji подходит куда лучше основной модели. Она тоньше чувствует характерные для аниме пропорции: огромные глаза, утончённые черты лица, динамичные позы, стилизованные волосы. А вот для фотореалистичных задач от неё толку мало — это именно специализированный инструмент.

Как менялось ценообразование

Кошелёк станет легче. Это первое, с чем сталкивался новый пользователь Midjourney в любую эпоху существования сервиса. Поначалу в 2022 году существовал бесплатный тариф, позволявший сгенерировать около 25 изображений без оплаты. Ведь команде нужно было привлечь аудиторию, и бесплатный порог входа с этой задачей справился блестяще. Однако к лету 2023 года бесплатный доступ закрыли — слишком велика оказалась нагрузка на серверы, да и злоупотребления множились. Подписка делилась на несколько тарифов: базовый (около 10 долларов в месяц на момент запуска) давал ограниченное количество «быстрых» генераций, а Pro-план (30 долларов) — заметно больший лимит и так называемый Stealth Mode, скрывающий ваши картинки от публичной галереи. Тем более что для коммерческого использования конфиденциальность довольно важна.

Серьёзное вложение? Зависит от масштабов работы. Для фрилансера, который делает по десять-двадцать генераций в день, базового плана хватает с натяжкой. А вот студии и агентства, где генеративным ИИ пользуется целая команда, чаще выбирали Mega-подписку (60 долларов в месяц), дающую максимум «быстрого» времени генерации. В общем, не бьёт по бюджету так уж сильно — особенно если сравнить со стоимостью работы живого иллюстратора.

Веб-интерфейс вместо Discord: новая эпоха взаимодействия

Буквально пару лет назад единственным способом общения с Midjourney был Discord-бот. Это создавало вокруг сервиса атмосферу закрытого клуба: нужно было зайти на сервер, освоить команды вроде /imagine, разобраться с параметрами, а потом ещё и выуживать свои результаты из бесконечного потока чужих генераций. Довольно непривычный опыт для тех, кто привык к классическим веб-приложениям. Но к 2024 году команда запустила полноценный веб-интерфейс на сайте midjourney.com — с удобной галереей, историей генераций, встроенным редактором и возможностью «лайкать» чужие работы для обучения модели.

Стоит ли этот переход считать революцией? Пожалуй, да. Ведь Discord-формат отпугивал добрую половину потенциальных пользователей, особенно тех, кто далёк от геймерской и айтишной субкультуры. Веб-версия же выглядит интуитивно понятной: вводишь текст в строку, получаешь четыре варианта, выбираешь лучший, дорабатываешь. А возможность организовывать картинки по папкам и оперативно редактировать промт «на месте» — это тот нюанс, которого в Discord-эпоху остро не хватало.

Все топовые нейросети в одном месте

Какую версию выбрать для конкретных задач

Тут всё зависит от конечной цели. Для создания концептуальных иллюстраций с налётом мистики и абстракции многие до сих пор возвращаются к V3 или V4 — там нейросеть «дичает» особенно красиво, выдавая образы, которые сложно получить в более поздних моделях. Если нужен фотореалистичный портрет или пейзаж, то V5.2 и V6 справляются с этим превосходно. Для рекламных макетов с текстовыми надписями единственный разумный выбор — шестая версия, потому что только она генерирует буквы без грубых искажений. Ну, а для аниме-стилистики путь один — Niji.

Впрочем, есть ещё один подводный камень, о котором не стоит забывать. С каждой новой версией менялся «стиль по умолчанию» — то, как нейросеть интерпретирует промт без дополнительных параметров. В V4 картинки тяготели к иллюстративности, в V5 — к фотографичности, в V6 — к кинематографичности. Это означает, что один и тот же промт выдаст совершенно разные результаты в зависимости от выбранной модели. И дело тут не в «лучше или хуже», а в том, какой эстетический код ближе конкретному проекту.

Что ждёт Midjourney дальше

Команда Дэвида Хольца никогда не отличалась излишней разговорчивостью насчёт планов. Но кое-что всё-таки просачивалось. Речь шла о видеогенерации — направлении, в которое уже ринулись конкуренты вроде Runway и Sora от OpenAI. К тому же активно тестировался 3D-режим, позволяющий создавать трёхмерные объекты на основе текстового описания. Если эти функции доведут до ума, Midjourney из инструмента для создания картинок превратится в полноценную творческую платформу, охватывающую сразу несколько медиаформатов.

На самом деле, история обновлений Midjourney — это кладезь наглядных примеров того, как стремительно развивается генеративный ИИ. Буквально за три года сервис прошёл путь от размытых, едва читаемых «снов робота» до фотореалистичных полотен, способных конкурировать со студийной съёмкой. И каждая версия внесла свою лепту в эту эволюцию. Не стоит воспринимать обновления как линейный прогресс — это скорее коллекция разных творческих инструментов, каждый со своим характером и настроением. Экспериментируйте, переключайтесь между моделями, подбирайте ту самую, которая резонирует с вашей задачей — и результат непременно порадует.