Как работает Midjourney сейчас: последние обновления и новые функции

Ещё пару лет назад генерация картинок по текстовому запросу казалась чем-то из области фантастики — занятием для горстки энтузиастов, ковыряющихся в Google Colab с блокнотами на Python. А сегодня нейросетевые генераторы изображений стали привычным рабочим инструментом для дизайнеров, маркетологов, иллюстраторов и просто людей, которым нравится экспериментировать с визуалом. Midjourney среди них занимает особое место — сервис, который начинался как бот в Discord, за короткое время превратился в полноценную платформу с собственным веб-интерфейсом, редактором и набором функций, от которых у обывателя глаза разбегаются. Но темп обновлений у команды Дэвида Хольца настолько бешеный, что даже постоянные пользователи не всегда успевают отследить все нововведения. А значит, стоит разложить по полочкам то, что сервис умеет прямо сейчас.

Все топовые нейросети в одном месте

Что изменилось в модели генерации?

Сердце Midjourney — собственная модель, и именно от неё зависит качество результата. Версия 6.1, которая стала базовой в конце 2024 года, принесла заметный скачок в детализации. Текстуры кожи, ткани, металла — всё это стало выглядеть куда реалистичнее. Но львиная доля внимания сообщества пришлась на другой нюанс: модель наконец-то научилась корректно рисовать руки. Звучит смешно, ведь для человека нарисовать пять пальцев — задача из детского сада. Однако для нейросетей это был настоящий подводный камень на протяжении нескольких поколений. И вот теперь артефакты вроде шести пальцев или сросшихся фаланг встречаются значительно реже, хотя назвать проблему полностью решённой всё-таки нельзя.

Отдельно стоит упомянуть работу с текстом внутри изображения. Раньше попытка «вписать» надпись в картинку заканчивалась кашей из символов — буквы сливались, искажались или вовсе превращались в абракадабру. Сейчас, если указать нужное слово в кавычках прямо в промте, модель в большинстве случаев воспроизводит его разборчиво. Не безупречно — длинные фразы по-прежнему даются с трудом, — но короткие заголовки, логотипы и вывески вполне читаемы. Это довольно серьёзный шаг вперёд, тем более что конкуренты вроде DALL·E 3 справлялись с этим раньше, и Midjourney нужно было догонять.

Веб-интерфейс вместо Discord

Пожалуй, самое грандиозное изменение за последний год — появление полноценного сайта midjourney.com с собственным рабочим пространством. Ведь именно привязка к Discord долгое время была главной ложкой дёгтя: новичкам приходилось разбираться в каналах, командах и ботах, а процесс генерации напоминал переписку в групповом чате. Неудобно. Хаотично. Да и среди чужих картинок собственные результаты терялись.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

Теперь же всё иначе. Веб-интерфейс выглядит как полноценное приложение — чистое, минималистичное, с тёмной темой. Промт вводится в строку вверху экрана, а ниже отображаются результаты генерации. К слову, сохранилась и поддержка Discord-бота для тех, кто привык к старому способу. Но нужно отметить, что веб-версия получила функции, которых в Discord попросту нет. К тому же навигация по собственным работам стала интуитивной — все изображения хранятся в личной галерее, их можно фильтровать по дате и по используемым параметрам.

Редактор изображений и инпейнтинг

Встроенный редактор. Вот что по-настоящему изменило правила игры. Раньше, если сгенерированная картинка нравилась на девяносто процентов, а оставшиеся десять — раздражали (лишний предмет на фоне, странная деталь одежды, неудачный ракурс руки), приходилось либо перегенерировать заново, либо тащить файл в Photoshop. Сейчас прямо на сайте можно выделить кистью нужную область и описать текстом, что именно там должно появиться. Эта техника называется инпейнтинг, и работает она в Midjourney на удивление гладко.

Скажем, сгенерировал ты портрет в стиле масляной живописи, а фон получился пустоватый. Выделяешь область позади фигуры, пишешь «старинная библиотека с тёплым светом» — и модель органично вписывает новый фон, сохраняя стиль и палитру оригинала. Впрочем, не стоит ждать чудес при слишком агрессивных правках: если попытаться заменить половину изображения, результат может выглядеть как коллаж. Но для точечной коррекции инструмент — настоящий спасательный круг.

Стоит ли разбираться в новых параметрах?

Безусловно. Дело в том, что Midjourney — один из немногих генераторов, где тонкая настройка через параметры способна кардинально изменить результат. И с каждым обновлением их становится больше. Один из самых обсуждаемых — —style raw, который отключает «фирменную» эстетизацию Midjourney и выдаёт более реалистичный, менее «приукрашенный» результат. Для фотографов и тех, кто грезит о фотореализме, — вещь незаменимая.

Следующий важный параметр — —chaos. Значение варьируется от нуля до ста и определяет, насколько «дикими» будут вариации в выдаче. При нулевом значении четыре картинки в сетке окажутся почти идентичными, а при сотне — совершенно непредсказуемыми. Для мозгового штурма и поиска неожиданных идей высокий хаос творит чудеса. А вот —stylize (сокращённо —s) регулирует степень художественности: чем выше число, тем более «красивую» и стилизованную картинку пытается выдать модель, иногда жертвуя точностью следования промту. Многие ставят значение около 250–400 для баланса, хотя диапазон тянется до тысячи. Ну и, конечно же, параметр —ar для соотношения сторон — без него никуда, если нужен баннер 16:9 или вертикальный постер 9:16.

Персонализация стиля

Функция, которая приковывает внимание больше прочих. Midjourney запустила систему персонального стиля — и это довольно нетривиальная штука. Суть в том, что сервис предлагает пользователю пройти своеобразный «визуальный тест»: на экране появляются пары изображений, и нужно выбрать то, что нравится больше. На основе сотен таких выборов алгоритм формирует персональный стилевой код — цифробуквенную комбинацию, которую затем можно подставлять в промт через параметр —p.

На практике это означает, что каждый пользователь получает «отпечаток» собственного вкуса. Тяготеешь к тёмным тонам, кинематографичному свету и минимализму? Код это запомнит. Предпочитаешь яркую иллюстрацию с насыщенными цветами? Модель подстроится. И что самое любопытное — этим кодом можно делиться. В сообществе уже появились целые каталоги чужих стилевых кодов, каждый из которых задаёт своё настроение. Нужно отметить, что для калибровки стоит пройти хотя бы двести-триста сравнений, иначе результат будет слишком размытым.

Что насчёт генерации видео?

Вот здесь ситуация неоднозначная. Midjourney анонсировала возможность генерации коротких видеороликов, и в ограниченном виде она уже доступна. Но называть это полноценным инструментом пока рано. Длительность клипов — около пяти секунд, движение камеры ограничено (в основном плавные панорамы и наезды), а управлять содержимым видео в той же мере, что и статичными изображениями, не получится. Это скорее «оживление» картинки, нежели полноценная видеогенерация в духе Sora от OpenAI или Kling от Kuaishou.

Тем не менее для определённых задач эта функция вполне годится. Оживить фон для сторис в соцсетях, сделать короткую зацикленную анимацию для лендинга, добавить эффект параллакса на статичную иллюстрацию — всё это уже реально. И команда Midjourney явно не собирается останавливаться: судя по утечкам и намёкам самого Хольца, более продвинутая генерация видео находится в активной разработке. Так что направление задано, а результат — вопрос времени.

Обновлённые подписки и цены

Кошелёк станет легче — это факт, с которым стоит смириться заранее. Бесплатной версии Midjourney в полноценном виде больше нет. Да, периодически сервис открывает ограниченные «окна» для бесплатных генераций на сайте, но рассчитывать на постоянный бесплатный доступ не приходится. Базовый тариф (Basic) стоит десять долларов в месяц и даёт около двухсот генераций — для казуального использования этого вполне хватает. Стандартный план (Standard) за тридцать долларов расширяет лимит до пятнадцати часов «быстрой» генерации плюс неограниченный «медленный» режим.

Для профессионалов существуют тарифы Pro за шестьдесят долларов и Mega за сто двадцать. Разница — в скорости, количестве параллельных генераций и доступе к «скрытому» режиму, при котором созданные изображения не попадают в публичную галерею. Последнее, кстати, довольно щепетильный момент: по умолчанию все сгенерированные в Midjourney картинки видны другим пользователям на сайте. Для тех, кто работает над коммерческими проектами или просто ценит приватность, режим Stealth — не роскошь, а необходимость. И доступен он только начиная с Pro-плана.

Как промт влияет на результат сегодня?

Промтинг в Midjourney сильно эволюционировал. Буквально год назад опытные пользователи писали промты на полтора абзаца, набивая их терминами вроде «octane render, 8k, photorealistic, cinematic lighting». Сейчас модель понимает контекст куда лучше, и такая «наляпистость» уже скорее мешает, чем помогает. Короткие, ёмкие описания зачастую дают более чистый результат, чем портянки из технических терминов.

Впрочем, несколько приёмов по-прежнему работают безотказно. Во-первых, указание конкретного стиля или имени художника: «in the style of Moebius» или «reminiscent of Edward Hopper» способно развернуть эстетику на сто восемьдесят градусов. Во-вторых, детализация настроения и атмосферы — «melancholic autumn dusk» вместо абстрактного «beautiful scene». Ну и, наконец, использование «негативных» указаний через —no: если хочется пейзаж без людей, достаточно добавить «—no people, crowd» — и модель постарается убрать всё лишнее. Не идеально, но в большинстве случаев срабатывает.

Мультимодальный ввод и работа с изображениями-референсами

Одна из функций, которая заслуживает истинного уважения, — загрузка собственных изображений в качестве основы для генерации. В Midjourney это реализовано через так называемые image prompts: пользователь вставляет ссылку на картинку (или загружает файл напрямую через сайт), а затем добавляет текстовое описание. Модель анализирует оба источника и создаёт нечто среднее между загруженным референсом и текстовым промтом. Параметр —iw (image weight) при этом регулирует, насколько сильно финальный результат будет тяготеть к загруженному изображению.

Зачем это нужно? Ситуаций масса. Дизайнер хочет перенести стилистику существующего бренда на новые макеты. Иллюстратор загружает свой скетч и просит модель довести его до фотореалистичного уровня. Маркетолог берёт фото продукта и экспериментирует с фонами и окружением. К тому же появилась функция —cref (character reference) — возможность «зафиксировать» внешность персонажа. Загружаешь одно изображение лица, и модель пытается сохранить эти черты в новых генерациях. Не стоит ожидать стопроцентного совпадения, но сходство достигает процентов семидесяти–восьмидесяти, что для задач вроде создания серии иллюстраций с одним героем — вполне достаточно.

Скорость и инфраструктура

Генерация заметно ускорилась. Если на ранних версиях модели ожидание одной сетки из четырёх изображений могло растянуться на минуту-полторы, то сейчас в «быстром» режиме результат появляется за десять–двадцать секунд. А апскейл (увеличение разрешения выбранного варианта) занимает и того меньше. Это связано с тем, что команда Midjourney серьёзно нарастила серверные мощности, перейдя на кластеры с новейшими GPU. Да и сама архитектура модели оптимизирована под параллельные вычисления.

«Медленный» режим, доступный на стандартном тарифе и выше, работает иначе — запрос ставится в очередь и обрабатывается в порядке приоритета. Время ожидания здесь может доходить до нескольких минут, иногда — до десяти в часы пик. Но для тех, кому не критична скорость, это добротный компромисс: генераций можно делать сколько угодно, и по кошельку это не бьёт сверх оплаченной подписки.

Подводные камни и ограничения

Было бы нечестно говорить только о достоинствах. Ведь минусы у Midjourney тоже есть, и некоторые из них довольно существенны. Главный — отсутствие открытого API в привычном смысле. Да, технически API существует, но доступ к нему ограничен и стоит отдельных денег. Для разработчиков, которые хотят интегрировать генерацию в свои продукты, это серьёзное препятствие. Конкуренты вроде Stability AI с их открытой моделью Stable Diffusion в этом плане дают куда больше свободы.

Ещё один неоднозначный момент — модерация контента. Midjourney применяет довольно строгие фильтры: определённые слова и темы заблокированы, причём иногда фильтр срабатывает на совершенно невинных промтах. Пытаешься сгенерировать иллюстрацию к медицинской статье — а система расценивает запрос как нарушение правил. Впрочем, команда постепенно калибрует эти ограничения, и ложных срабатываний стало меньше. Но они всё ещё всплывают, и это раздражает.

Midjourney и конкуренты: кто впереди?

Рынок нейросетевой генерации изображений сейчас напоминает гонку формулы один — каждый месяц кто-то выкатывает обновление, и расклад сил меняется. DALL·E 3 от OpenAI глубоко интегрирован в ChatGPT, что делает его максимально доступным. Stable Diffusion 3 привлекает тех, кто хочет запускать генерацию локально, на собственном железе. Flux от Black Forest Labs удивил качеством на старте. А Ideogram добился впечатляющих результатов в отрисовке текста.

Все топовые нейросети в одном месте

И всё же Midjourney удерживает позиции, причём по нескольким причинам. Во-первых, эстетика. У модели есть узнаваемый «почерк» — изображения выглядят художественно, с грамотной композицией и приятной цветовой палитрой, даже если промт был написан кое-как. Это та самая изюминка, которая отличает Midjourney от более «сухих» конкурентов. Во-вторых, сообщество. Миллионы пользователей, активный Discord, тысячи гайдов — всё это создаёт экосистему, из которой трудно уйти. Ну, а в-третьих, сам темп развития: команда компактная (около семидесяти человек), но выкатывает обновления с завидной регулярностью.

Что ждать дальше?

Дэвид Хольц неоднократно намекал на несколько направлений, которые команда считает приоритетными. Более продвинутая генерация видео — об этом уже шла речь выше. Генерация 3D-объектов — амбициозная задача, которая пока находится на экспериментальной стадии. И улучшение «понимания» сложных сцен с несколькими объектами и их взаимодействием — модель до сих пор порой путает, кто в сцене стоит слева, а кто справа, кто держит предмет, а кто на него смотрит. Пространственное мышление нейросети пока оставляет желать лучшего.

А ещё ходят разговоры о полноценном мобильном приложении. Сайт и так неплохо работает в мобильном браузере, но отдельное приложение с пуш-уведомлениями о готовности генерации и удобным сенсорным интерфейсом для инпейнтинга — это совсем другой уровень комфорта. Тем более что львиная доля аудитории сейчас потребляет контент именно со смартфонов.

Midjourney за неполных три года прошла путь от экспериментального бота до одного из самых мощных инструментов генеративного ИИ. И останавливаться, судя по всему, не собирается. Даже если вы раньше пробовали сервис и разочаровались — стоит дать ему второй шанс. Новая модель, веб-редактор, персонализация стиля, инпейнтинг — всё это совершенно другой опыт по сравнению с тем, что было год назад. Удачи в экспериментах — и пусть каждый промт приносит именно тот результат, который рисовало воображение.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *