Ещё каких-то четыре года назад сама идея о том, что нейросеть способна нарисовать картину по текстовому описанию, казалась обывателю чем-то из области фантастики. Генеративные модели существовали и раньше, но львиная доля из них выдавала нечто настолько далёкое от человеческого искусства, что воспринимать результат всерьёз не получалось. А потом появилась Midjourney — и буквально за пару лет перевернула представление о возможностях искусственного интеллекта в творчестве. Грубые пиксельные пятна превратились в фотореалистичные полотна, а споры о том, «искусство ли это вообще», не утихают до сих пор. Но чтобы по-настоящему оценить масштаб перемен, стоит вернуться к самым истокам и проследить весь путь — от первой, ещё довольно неуклюжей версии до современного инструмента, которым грезят иллюстраторы и дизайнеры по всему миру.
С чего всё началось?
Размытые силуэты. Именно так в двух словах можно описать первые результаты Midjourney v1, которую команда Дэвида Хольца открыла для тестирования в феврале 2022 года. Дело в том, что модель на тот момент едва справлялась с распознаванием контекста промпта, и пользователь, набравший, скажем, «закат над горным озером в стиле Моне», рисковал получить нечто, лишь отдалённо напоминающее и закат, и озеро, и тем более импрессионизм. Цветовая палитра при этом довольно часто оказывалась грязноватой, а детали — смазанными. Но кое-что всё-таки приковывало внимание даже тогда: атмосфера. Несмотря на все технические огрехи, в генерациях ощущалось странное, почти сновидческое настроение. И именно эта изюминка отличала Midjourney от конкурентов с первого дня.
Нужно отметить, что Хольц не был новичком в технологической индустрии. До Midjourney он основал компанию Leap Motion, занимавшуюся трекингом движений рук. Опыт работы с визуальными технологиями, безусловно, внёс свою лепту. Однако генеративные нейросети — совсем другая территория, и команда шла во многом наощупь. К тому же первая версия работала исключительно через Discord-бота, что для многих выглядело странно: серьёзный инструмент — и вдруг мессенджер для геймеров? Впрочем, именно такой неформальный подход позволил быстро собрать вокруг проекта живое сообщество энтузиастов, которые тестировали модель, делились промптами и, по сути, бесплатно помогали разработчикам находить слабые места.
Midjourney v2 и v3: первые серьёзные шаги
Весной 2022-го вышла вторая версия, и сдвиг бросался в глаза сразу. Контуры объектов стали чётче, а цвета — чище. Модель научилась лучше «понимать» стилистические указания: если в промпте упоминался конкретный художник или направление, результат хотя бы отдалённо тяготел к нужной эстетике. Да и композиция генераций заметно подтянулась — пропорции лиц уже не вызывали такого ужаса, как прежде. Хотя до идеала оставалось невероятно далеко: пальцы на руках по-прежнему множились, глаза норовили оказаться на разных уровнях, а текст на изображениях выглядел как набор случайных закорючек.
Нереальный визуал и кинематографичное видео в пару кликов 🎬
Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!
Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL
Третья версия появилась летом того же года, и вот тут начался настоящий бум. Разрешение выросло, детализация — тоже, а главное — нейросеть стала выдавать изображения с внушительным художественным потенциалом. Именно на v3 многие впервые задумались о том, что генеративное искусство — не просто игрушка, а вполне рабочий инструмент. К слову, именно в этот период разгорелся знаменитый скандал на конкурсе Colorado State Fair, где работа, созданная с помощью Midjourney, заняла первое место в категории цифрового искусства. Возмущение художников было грандиозным. Но факт остаётся фактом: качество генераций к тому моменту достигло уровня, который позволял конкурировать с живыми авторами — пусть и с оговорками.
Что изменила четвёртая версия?
Ноябрь 2022-го. Midjourney v4 стала, пожалуй, самым заметным скачком во всей истории проекта. Если v1 напоминала эскизы подвыпившего сюрреалиста, то четвёрка уже производила впечатление работы добротного цифрового иллюстратора. Дело в том, что команда полностью переработала архитектуру модели, обучив её на значительно большем массиве данных и внедрив новые подходы к обработке промптов. Результат? Текстуры стали реалистичнее, освещение — правдоподобнее, а человеческие лица наконец-то перестали пугать. Ведь до этого момента именно лица были главным подводным камнем всех генеративных моделей: стоило попросить портрет, и нейросеть выдавала нечто из «зловещей долины».
Отдельно стоит упомянуть, что v4 получила куда более тонкое чувство стиля. Промпт, содержащий указания вроде «cinematic lighting» или «oil painting texture», действительно менял характер изображения, а не просто добавлял лёгкий фильтр поверх стандартной картинки. Пользователи быстро подметили эту особенность, и в сообществе начался бум «промпт-инженерии» — скрупулёзного подбора слов и параметров для достижения нужного эффекта. К тому же именно с четвёртой версии Midjourney стала всерьёз конкурировать с DALL-E 2 от OpenAI и набиравшей обороты Stable Diffusion.
Пятая версия: фотореализм и новые споры
Март 2023 года. Выход v5 произвёл эффект разорвавшейся бомбы. Фотореализм генераций достиг такой степени, что отличить сгенерированный портрет от настоящей фотографии стало довольно сложно даже для опытного глаза. Руки — вечная ахиллесова пята нейросетей — стали выглядеть убедительно. Пять пальцев. Правильная анатомия. Ногти. Кожа с порами. Зрелище впечатляющее, если вспомнить, с чего всё начиналось чуть больше года назад.
Но вместе с качеством пришли и серьёзные этические вопросы. Одна из самых громких историй того периода — фейковые фотографии Папы Римского в белом пуховике, созданные именно в Midjourney v5 и разлетевшиеся по соцсетям со скоростью лесного пожара. Миллионы людей приняли их за чистую монету. И тут всплыли все те опасения, о которых раньше говорили лишь теоретики: дипфейки, манипуляция общественным мнением, подрыв доверия к визуальному контенту. Команда Хольца отреагировала ужесточением правил использования, но, само собой, полностью контролировать ситуацию не удавалось. Нельзя не упомянуть и появление версий v5.1 и v5.2, которые принесли режим «stylize» с расширенным диапазоном и функцию «zoom out» — возможность достраивать изображение за его пределами. Мелочь? На первый взгляд. Но для дизайнеров и иллюстраторов эти нововведения стали настоящим спасательным кругом при подготовке широкоформатных макетов.
Midjourney v6: тонкая настройка и текст
Конец 2023-го — начало 2024-го. Шестая версия появилась в стадии альфа-тестирования и сразу задала новую планку. Главная изюминка — способность генерировать читаемый текст прямо на изображениях. Буквально десятилетие назад (ну, ладно, полтора года) нейросеть превращала любую надпись в бессмысленную абракадабру, а тут — вполне разборчивые слова на вывесках, постерах, обложках. Не идеально, ведь ошибки всё ещё случались, но прогресс налицо.
К тому же v6 стала куда лучше следовать сложным промптам. Раньше модель нередко «забывала» часть описания: если в запросе было шесть деталей, до финального изображения добирались три-четыре. Шестая версия эту проблему если не решила полностью, то существенно смягчила. Появилась и более тонкая работа с глубиной резкости, боке, отражениями в стекле — всё то, что ценит каждый, кто хоть раз держал в руках зеркальную камеру. Нужно отметить, что именно с v6 многие профессиональные фотографы начали всерьёз воспринимать Midjourney как конкурента. Не потому, что нейросеть «заменяет» фотографа — это слишком грубое упрощение. А потому, что для коммерческих задач вроде стоковых иллюстраций или мудбордов генерации стали достаточно качественными, чтобы сэкономить и время, и деньги.
Как менялся интерфейс и модель доступа?
Здесь тоже произошла целая эволюция. Первые версии, как уже упоминалось, жили исключительно в Discord. Для технически подкованного пользователя — не проблема. Но обыватель, далёкий от мира мессенджеров и серверов, терялся уже на этапе регистрации. Команде Хольца это было очевидно, и к 2024 году появился полноценный веб-интерфейс — alpha.midjourney.com. Работать стало значительно удобнее: библиотека сгенерированных изображений, инструменты редактирования прямо в браузере, возможность организовать папки. Мелочь? Ведь именно такие «мелочи» определяют, останется пользователь с сервисом или уйдёт к конкурентам.
Стоимость подписки тоже претерпела изменения, хотя бесплатный доступ сохранялся в ограниченном виде довольно долго. Базовый тарифный план обходится примерно в десять долларов в месяц, а профессиональный — в шестьдесят. Не сказать, что это сильно бьёт по бюджету, тем более для коммерческого использования. Однако для студентов и просто любопытствующих даже десять долларов — серьёзное вложение, если учитывать, что Stable Diffusion позволяет генерировать бесплатно (правда, на собственном железе и с необходимостью возиться с настройками). Впрочем, Midjourney всегда делала ставку не на дешевизну, а на простоту и качество «из коробки».
Чем Midjourney отличается от конкурентов?
На самом деле, львиная доля отличий — в характере изображений. DALL-E от OpenAI тяготеет к «чистым», немного глянцевым картинкам. Stable Diffusion — кладезь гибкости, но требует технических навыков и зачастую долгой настройки. А Midjourney с самых ранних версий солировала в области эстетики: её генерации обладают узнаваемым «настроением», некой атмосферной дымкой, которую сложно спутать с другими моделями. Это не случайность. Дэвид Хольц неоднократно говорил, что команду интересует не столько техническая точность, сколько эмоциональный отклик зрителя.
И ведь именно этот подход приковывает к Midjourney внимание художников и арт-директоров, которые используют нейросеть для поиска вдохновения, а не как замену ручному труду. Конечно, споры о правомерности такого использования не утихают: всё-таки модель обучалась на миллионах изображений реальных художников, и вопрос авторского права здесь стоит довольно остро. Но с практической стороны нельзя отрицать: скорость генерации концептов выросла в разы, а порог входа в визуальное творчество опустился практически до нуля.
Что дальше: v7 и модель для видео
Слухи о седьмой версии циркулируют давно. Команда Хольца традиционно скупа на анонсы, но отдельные утечки и высказывания в Discord позволяют предположить, что v7 принесёт ещё более точное следование промптам, улучшенную работу с анатомией в сложных позах и — что вызывает особый интерес — расширенные возможности 3D-генерации. Кроме того, Midjourney активно экспериментирует с видео. Пока это лишь короткие клипы на несколько секунд, но темпы развития таковы, что к концу 2025 года вполне могут появиться более продолжительные ролики с приемлемым качеством.
Стоит ли воспринимать всё это как угрозу для человеческого творчества? Вопрос неоднозначный. С одной стороны, инструменты вроде Midjourney действительно меняют рынок иллюстрации, и некоторые ниши — стоковая фотография, например — уже ощущают на себе давление. С другой стороны, история знает массу примеров, когда технологическая революция не уничтожала профессии, а трансформировала их. Фотоаппарат не убил живопись, а синтезатор не похоронил живую музыку. Тем более что самые сложные, по-настоящему авторские задачи нейросеть пока решает довольно посредственно: нестандартная композиция, тонкий юмор, концептуальная глубина — всё это остаётся территорией человека.
Как не потеряться в эпоху генеративных моделей?
Самый разумный совет — воспринимать Midjourney и подобные инструменты именно как инструменты. Не стоит гнаться за каждой новой версией ради самой гонки. Куда важнее понимать, какую задачу нейросеть решает конкретно для вас: создание мудбордов, быстрое прототипирование, генерация фонов для презентаций, поиск необычных цветовых решений. Каждый из этих сценариев требует своего подхода к промптам и настройкам. А вот бездумно скармливать модели запросы вроде «красивая картинка» — пустая трата и времени, и средств.
Путь от размытых силуэтов Midjourney v1 до фотореалистичных шедевров шестой версии занял чуть больше двух лет. Скорость, с которой развивается эта технология, поражает воображение, и предсказать, что именно нас ждёт через пять лет, не возьмётся, пожалуй, даже сам Хольц. Одно можно сказать точно: умение работать с генеративными моделями постепенно превращается в такой же базовый навык, как владение графическим редактором или знание основ вёрстки. И те, кто освоит этот инструмент сегодня, получат внушительное преимущество завтра — вне зависимости от того, какой номер версии будет стоять в заголовке очередного обновления. Удачи в творческих экспериментах, и не стоит бояться нового — оно уже здесь.

