Ещё пару лет назад генерация картинок по текстовому описанию казалась забавной игрушкой — красивой, но довольно бесполезной штукой для мемов и аватарок. Нейросеть выдавала шесть пальцев на руке, путала право и лево, а текст внутри изображений превращался в бессмысленную кашу из символов. Многие скептики тогда махнули рукой: мол, до серьёзного инструмента этим генераторам как до Луны. Но индустрия нейросетевой графики за 2024 год совершила такой рывок, что даже закоренелые скептики вынуждены были пересмотреть свои взгляды. И Midjourney — пожалуй, самый обсуждаемый генератор изображений — в этом забеге не просто участвовал, а задавал темп. А чтобы разобраться, что именно изменилось и стоит ли обновления внимания, нужно пройтись по каждому крупному нововведению отдельно.
Версия 6.0 и переход на новую архитектуру
Начало года ознаменовалось выходом из бета-тестирования шестой версии модели. Событие, которого сообщество ждало с конца 2023-го. Дело в том, что переход с пятой на шестую версию — это не просто косметическая доработка, а полная смена архитектуры нейросети. Вся суть в том, что модель научилась куда точнее понимать естественный язык. Раньше промты приходилось выстраивать по довольно жёсткой формуле: сначала объект, потом стиль, затем параметры через запятую. И малейшее отклонение от этой негласной грамматики могло испортить результат. В шестой версии промт стал ближе к обычному человеческому предложению. Можно написать развёрнутую фразу, включить в неё настроение, контекст, даже маленький сюжет — и модель всё это переварит без потери смысла. К слову, длинные промты теперь работают заметно лучше коротких, что перевернуло привычный подход опытных пользователей с ног на голову.
Что случилось с текстом на изображениях?
Подводные камни генерации текста внутри картинок мучили пользователей Midjourney с самого первого дня. Надпись на вывеске магазина превращалась в абракадабру, буквы на футболке плыли, а любая попытка вставить в изображение хотя бы одно слово заканчивалась разочарованием. Но в 2024 году ситуация изменилась довольно радикально. Начиная с версии 6.0, а затем ещё заметнее в обновлении 6.1, модель научилась генерировать читаемый текст — по крайней мере, короткие слова и фразы из двух-трёх слов на латинице. С кириллицей дело обстоит сложнее, и тут не стоит ждать чудес, но прогресс налицо. Достаточно заключить нужное слово в кавычки прямо в промте, и нейросеть с высокой вероятностью отрисует его корректно. Для дизайнеров, которые используют Midjourney как инструмент для быстрых мокапов, это стало настоящим спасательным кругом.
Качество детализации и фотореализм
Грандиозный скачок. Именно так описывают улучшение качества картинки те, кто пользовался пятой версией и перешёл на шестую. Кожа на портретах перестала выглядеть «восковой» — появились поры, мелкие морщинки, естественные тени под глазами. Текстуры ткани, металла, дерева стали настолько правдоподобными, что отличить генерацию от студийной фотографии бывает непросто даже профессионалу. Особый интерес вызывает работа с освещением: модель теперь учитывает направление света, отбрасывает корректные тени и даже имитирует каустику — те самые световые узоры, которые вода рисует на дне бассейна. А ведь ещё год назад свет в генерациях был плоский, словно из встроенной вспышки. Впрочем, за фотореализм приходится платить: время генерации немного выросло, да и расход GPU-минут стал ощутимее.
Все лучшие нейросети мира теперь в твоём кармане! ⚡
Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.
Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL
Стоит ли говорить о «стилевых» обновлениях?
Безусловно. Ведь именно стилевая гибкость всегда была изюминкой Midjourney на фоне конкурентов вроде DALL·E и Stable Diffusion. В 2024 году разработчики добавили параметр —style raw в обновлённом виде, а вместе с ним — целый набор новых эстетических предустановок. Если раньше «сырой» режим просто снижал степень художественной обработки, то теперь он превратился в тонкий инструмент контроля. Хочется получить изображение без фирменного «мидджорнишного» лоска — пожалуйста. Нужна максимальная стилизация — тоже не проблема. К тому же появился параметр —sv (style version), позволяющий переключаться между разными стилевыми моделями внутри одной версии. Для иллюстраторов и концепт-художников это кладезь возможностей, потому что один и тот же промт при смене стилевой версии выдаёт совершенно разные результаты — от гиперреализма до акварельной мягкости.
Редактор изображений и работа с фрагментами
Одна из самых долгожданных функций. Внутренний редактор, который команда Midjourney развернула на своём веб-сайте, позволяет не просто генерировать изображения, но и дорабатывать их прямо в браузере. Стоит отметить, что речь идёт не о каком-то примитивном кадрировании. Пользователь может выделить кистью конкретную область на картинке и написать текстовый промт только для этого фрагмента. Допустим, лицо на портрете получилось отлично, а вот фон вышел скучным — достаточно закрасить задний план, описать желаемый антураж, и модель перерисует только выделенную зону, не трогая остальное. Технология эта называется inpainting, и в мире генеративных нейросетей она не нова, но Midjourney реализовала её на удивление аккуратно. Границы между оригинальным и перерисованным фрагментом практически не видны, что раньше было довольно серьёзной проблемой у конкурентов.
Как изменился веб-интерфейс?
Долгое время Midjourney существовала исключительно внутри Discord — и это, мягко говоря, вызывало неоднозначные эмоции. Новички путались в каналах, опытные пользователи жаловались на неудобство поиска своих генераций, а профессионалы морщились от самого факта, что серьёзный рабочий инструмент привязан к мессенджеру для геймеров. В 2024 году ситуация наконец-то сдвинулась с мёртвой точки. Веб-версия на сайте midjourney.com перестала быть просто галереей и превратилась в полноценное рабочее пространство. Генерация, редактирование, организация по папкам, история промтов — всё это теперь доступно через браузер. Да и сам интерфейс стал довольно интуитивным: даже обыватель, далёкий от нейросетей, разберётся за десять-пятнадцать минут. Но Discord никуда не делся — для тех, кому привычнее работать через бот, всё функционирует по-прежнему.
Персонализация и «обучение» на своих изображениях
Нельзя не упомянуть функцию —personalize, которая наделала шума в середине года. Идея следующая: нейросеть анализирует, какие именно изображения пользователь отмечал как понравившиеся (через систему рейтингов внутри платформы), и на основе этих предпочтений формирует индивидуальный стилевой профиль. По сути, модель начинает «подстраиваться» под вкус конкретного человека. Звучит как научная фантастика? На самом деле механика довольно прозрачная: алгоритм просто смещает веса в сторону тех эстетических паттернов, которые чаще получали высокую оценку. Результат — генерации с добавлением —p к промту выглядят так, будто их «рисовал» один и тот же виртуальный художник, знающий ваши предпочтения. Для бренд-дизайнеров, которым нужна визуальная консистентность, вещь незаменимая.
Масштабирование и работа с разрешением
Ещё один больной нюанс прошлых версий — невысокое разрешение на выходе. Стандартная генерация выдавала картинку размером 1024 на 1024 пикселей, и для публикации в соцсетях этого хватало, но для печати или использования в крупных проектах — нет. В 2024 году команда Midjourney добавила встроенный апскейлер нового поколения, способный увеличивать изображение до разрешения в четыре раза больше оригинального без заметной потери качества. Причём апскейл происходит не «тупым» растягиванием пикселей, а с дорисовкой деталей — нейросеть фактически дофантазирует текстуру там, где её не было. К тому же появилась возможность задавать нестандартные соотношения сторон: от сверхширокого панорамного 3:1 до узкого вертикального 1:3. Для тех, кто готовит баннеры, обложки книг или широкоформатные принты, это стало серьёзным аргументом в пользу Midjourney.
Скорость генерации и новые тарифы
С деньгами дело обстоит неоднозначно. С одной стороны, разработчики оптимизировали серверную инфраструктуру и среднее время генерации одного набора из четырёх изображений сократилось примерно до восьми-двенадцати секунд в режиме Fast. Это заметно бодрее, чем в начале 2023-го, когда ожидание могло растянуться на минуту и больше. С другой стороны, бесплатный тариф так и не вернулся (его отключили ещё в 2023 году из-за наплыва пользователей), а стоимость подписок осталась прежней: от десяти долларов в месяц за базовый план до ста двадцати за план Mega. Ну и, конечно же, расход GPU-минут на продвинутые функции вроде inpainting и апскейлинга оказался выше, чем на обычную генерацию, так что кошелёк становится легче быстрее, чем хотелось бы. Многие считают, что за такие деньги стоит ждать ещё более щедрых лимитов, но на самом деле по соотношению цены и качества Midjourney по-прежнему выглядит конкурентоспособно.
Что насчёт видео?
Разговоры о видеогенерации ходили весь год. После того как OpenAI показала Sora, а Runway обновила Gen-3, пользователи Midjourney стали требовать аналогичную функцию. Команда Дэвида Хольца (основателя Midjourney) отреагировала довольно сдержанно: в конце 2024 года появились первые экспериментальные превью анимированных изображений, но до полноценного видеогенератора дело пока не дошло. Тем не менее небольшие зацикленные анимации длительностью в две-три секунды уже доступны, и выглядят они впечатляюще. Ветер колышет волосы, вода рябит, свечи мерцают — мелкие детали оживают так, что от фотографии отличить сложно. Это скорее «живые фотографии» в духе синемаграфов, чем полноценное видео, но направление задано чётко.
Борьба с «мусорными» генерациями и этические рамки
Отдельно стоит упомянуть ужесточение модерации. Вся суть в том, что по мере роста аудитории (к концу 2024 года количество пользователей Midjourney перевалило за двадцать миллионов) всё острее встают вопросы авторского права и этичного использования. Разработчики внедрили более агрессивные фильтры, блокирующие генерацию изображений, похожих на работы конкретных живущих художников, а также ограничили возможность создавать реалистичные портреты публичных персон. Это вызвало волну критики среди части аудитории, считающей такие меры цензурой. Но команда стоит на своём: ведь судебные иски от художников и правообладателей — это не гипотетическая угроза, а реальные процессы, которые уже идут в американских судах. Да и репутационные риски для платформы слишком высоки, чтобы закрывать на это глаза.
Интеграции и API
Львиная доля профессиональных пользователей давно мечтала об открытом программном интерфейсе. И в 2024 году первые шаги в этом направлении наконец-то были сделаны. Midjourney начала предоставлять доступ к API для корпоративных клиентов, хотя и в ограниченном формате — через программу раннего доступа. Это означает, что студии, маркетинговые агентства и разработчики приложений могут встраивать генерацию изображений прямо в свои продукты, не заставляя пользователей переходить в Discord или на сайт Midjourney. Для индустрии это довольно важный сигнал: платформа перестаёт быть «игрушкой для энтузиастов» и тяготеет к корпоративному добротному инструменту. Впрочем, стоимость API-вызовов пока не сильно ударит по бюджету только крупных компаний — мелким студиям придётся подождать более демократичных тарифов.
Сообщество и экосистема вокруг Midjourney
Нельзя говорить об обновлениях в вакууме, не упоминая то, что происходит вокруг самого продукта. В 2024 году экосистема Midjourney разрослась до внушительных масштабов. Появились десятки курсов, целые YouTube-каналы с миллионными просмотрами, посвящённые исключительно промт-инжинирингу для этой нейросети. На маркетплейсах вроде PromptBase торгуют готовыми промтами, а на фриланс-биржах отдельной строкой идут вакансии «Midjourney-художник». Кстати, сама платформа поддержала этот тренд, запустив обновлённую галерею Explore, где можно не просто смотреть чужие работы, но и копировать промты одним кликом. Для новичков это настоящий кладезь вдохновения: можно разобрать по полочкам, как именно создавалась понравившаяся картинка, и адаптировать чужой опыт под свои задачи.
Чего ждать дальше?
Дэвид Хольц в своих нечастых появлениях на Discord-стримах намекнул на несколько вещей, которые команда планирует реализовать в ближайшей перспективе. Во-первых, полноценную 3D-генерацию — возможность на основе текстового промта создавать не плоскую картинку, а трёхмерную модель, которую можно вращать и экспортировать в форматы для игровых движков. Во-вторых, более глубокую работу с видео, включая генерацию роликов длительностью до тридцати секунд. Ну и, наконец, улучшение консистентности персонажей — то есть возможность «зафиксировать» внешность сгенерированного героя и использовать его в серии изображений, сохраняя лицо, фигуру и пропорции. Это связано с тем, что сейчас одна из самых болезненных проблем — невозможность точно воспроизвести одного и того же персонажа на нескольких кадрах. Для комиксистов, сторибордистов и рекламщиков решение этой задачи стало бы настоящим прорывом.
Год для Midjourney вышел насыщенным, и прогресс бросается в глаза даже при беглом сравнении генераций января и декабря. Нейросеть стала умнее, послушнее и гибче — и при этом не утратила ту самую художественную «душу», которая всегда отличала её от конкурентов. Не стоит, конечно, ждать от генератора абсолютного совершенства: шесть пальцев нет-нет да и всплывут, а с кириллическим текстом модель по-прежнему дружит неохотно. Но направление движения внушает оптимизм. А для тех, кто ещё не попробовал обновлённую версию, — самое время окунуться в эту историю и оценить, насколько далеко шагнула нейросетевая графика за какие-то двенадцать месяцев. Удачи в экспериментах — результаты наверняка приятно удивят.
