Последние новости Midjourney: свежие обновления и функции нейросети

Ещё пару лет назад генерация изображений по текстовому описанию казалась забавной игрушкой — чем-то вроде калейдоскопа, который выдаёт случайные узоры, иногда похожие на настоящие картины. Художники посмеивались, дизайнеры крутили пальцем у виска, а обыватели просто удивлялись нелепым шестипалым рукам на сгенерированных портретах. Но за каких-то двадцать четыре месяца ситуация перевернулась с ног на голову: нейросети научились рисовать так, что отличить машинную работу от ручной стало довольно сложной задачей даже для профессионалов. И Midjourney в этой гонке технологий прочно занимает одну из лидирующих позиций. А чтобы не отстать от стремительно меняющегося инструмента, стоит разобраться, какие обновления команда Дэвида Хольца выкатила за последнее время.

Все топовые нейросети в одном месте

Что изменилось в шестой версии модели?

Шестая версия. Именно она стала тем рубежом, после которого скептики замолчали. Дело в том, что до этого момента у Midjourney были довольно очевидные слабости — текст на изображениях выглядел как абракадабра, а мелкие детали вроде пуговиц на рубашке или спиц велосипедного колеса нейросеть упорно превращала в кашу. С выходом модели v6 ситуация изменилась кардинально. Текстовые надписи на картинках начали воспроизводиться почти без ошибок, если заключить нужное слово в кавычки прямо внутри промта. Мелкая детализация подтянулась настолько, что на портретах стали различимы отдельные ресницы и поры кожи. А вот что по-настоящему приковывает внимание — способность модели работать с длинными описательными промтами. Раньше хватало пяти-семи слов, и нейросеть додумывала остальное. Теперь же она вчитывается в каждый нюанс запроса, прослеживая связи между объектами внутри сцены.

Стоит отметить и качественный скачок в понимании пространственных отношений. Если раньше фраза «кот сидит на крыше рядом с трубой» могла породить кота, слитого воедино с трубой, то v6 научилась разводить объекты по сцене грамотнее. Конечно, курьёзы всё ещё случаются — ведь ни одна генеративная модель не застрахована от галлюцинаций. Однако процент подобных промахов снизился, по субъективным ощущениям сообщества, почти вдвое.

Версия 6.1 и работа над ошибками

Добротная промежуточная итерация. Именно так охарактеризовали v6.1 в официальном Discord-канале проекта. Разработчики сосредоточились на том, что в предыдущих релизах раздражало больше всего: артефакты на руках, зубы, сливающиеся в один сплошной ряд, и странные текстуры кожи, которые иногда придавали портретам восковой вид. Результат получился неоднозначный — руки действительно стали лучше (хотя шесть пальцев время от времени всё же всплывают), но некоторые пользователи заметили, что общая «рисованность» картинки усилилась. Это связано с тем, что команда перекалибровала модуль пост-обработки, чтобы убрать характерную «мыльность» фонов. В итоге фоны стали чётче, но стилистика сместилась чуть ближе к цифровой живописи, нежели к фотореализму. Впрочем, для львиной доли задач — от концепт-арта до оформления блогов — такой сдвиг оказался скорее плюсом.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

Что такое «стилевые ссылки» и зачем они нужны?

Среди всех нововведений последнего года именно style references (или —sref) вызвали, пожалуй, самый бурный отклик сообщества. Вся суть в том, что теперь можно скормить нейросети не просто текстовый промт, а приложить к нему изображение-образец, от которого модель «заберёт» цветовую палитру, настроение и общую художественную манеру. Раньше подобное частично работало через параметр —image, но результат был непредсказуемым: нейросеть то копировала содержание картинки, то игнорировала стиль напрочь. Механизм —sref разделил эти функции. Отдельно — содержание промта, отдельно — стилистическая «выжимка» из референса.

Практическая польза — грандиозная. Допустим, дизайнер ведёт Instagram-аккаунт с определённой визуальной стилистикой: тёплые тона, лёгкая зернистость, мягкий свет. Достаточно один раз подобрать удачный референс и прикреплять его ко всем последующим генерациям. На выходе — единая эстетика, словно все изображения сделаны одной рукой. Да и для художников-концептуальщиков функция стала настоящим спасательным кругом, потому что раньше на достижение стилевого единства уходили десятки попыток и ручная корректировка промтов. К тому же появился параметр —sw (style weight), позволяющий регулировать «дозу» стилевого влияния по шкале от нуля до тысячи.

Персонажные ссылки: шаг к постоянству

Проблема консистентности персонажей мучила пользователей нейросетей с самого начала. Ты сгенерировал отличного рыжеволосого рыцаря на одной картинке, а на следующей — при том же промте — получал совершенно другого человека. Для комиксов, раскадровок и иллюстраций к книгам это было фатально. В середине 2024 года Midjourney выкатила функцию character references (—cref), и ситуация сдвинулась с мёртвой точки.

Как это работает? Загружаешь изображение персонажа, добавляешь параметр —cref с URL этой картинки, и нейросеть старается воспроизвести того же героя в новой позе, обстановке или одежде. Нужно ли для этого сложное колдовство с промтами? Вовсе нет. Хватает базового описания сцены и ссылки. Безусловно, стопроцентного попадания добиться пока сложно — иногда черты лица «уплывают», особенно в сильно нестандартных ракурсах. Но по сравнению с тем хаосом, что царил раньше, прогресс впечатляет. Нельзя не упомянуть и параметр —cw (character weight): при значении ноль модель перенимает только лицо, при значении сто — полный образ, включая одежду и причёску.

Стоит ли переходить на веб-интерфейс?

Долгое время Midjourney оставалась чуть ли не единственным крупным AI-сервисом, намертво привязанным к Discord. Многие пользователи с этим смирились, а некоторые даже полюбили хаотичную атмосферу общих каналов, где чужие генерации мелькают со скоростью биржевого тикера. Но вот в 2024-м свершилось: появился полноценный веб-сайт midjourney.com с собственным интерфейсом для генерации, галереей и инструментами редактирования.

Первое, что бросается в глаза — скорость. Через сайт результаты отображаются практически мгновенно, без той задержки, которая неизбежна в Discord из-за серверных ботов и очередей сообщений. Далее следует удобство организации: все сгенерированные картинки хранятся в персональной галерее с фильтрами по дате и промтам. А ещё появился встроенный редактор, позволяющий «дорисовывать» фрагменты картинки прямо в браузере — по сути, локальный аналог инпейнтинга, который раньше приходилось делать через сторонние инструменты. Впрочем, Discord-бот по-прежнему работает, и никто не заставляет переезжать. Но тенденция очевидна — будущее Midjourney всё больше тяготеет к вебу.

Режим «pan» и расширение холста

Функция, о которой просили годами. Буквально. Раньше, если сгенерированная картинка обрезала важный кусок сцены — скажем, обрезала ноги персонажу или срезала верхушку замка — приходилось перегенерировать всё заново. Теперь достаточно нажать стрелку в нужном направлении (влево, вправо, вверх, вниз), и нейросеть дорисует продолжение. Это называется pan. Результат бывает впечатляющим, особенно для пейзажей — горизонт «растягивается», и картина получает ту широту, которой изначально не хватало.

К слову, функция zoom out работает по схожему принципу, но «отъезжает» камеру, достраивая окружение вокруг исходного изображения. Можно сделать это поэтапно: сначала отдалиться на полтора разА, затем ещё раз, и в итоге из крупного портрета получить полноростовую сцену на фоне городской улицы. Нюанс в том, что каждый шаг «отдаления» чуть снижает когерентность — детали на периферии могут не совпадать по стилю с центральной частью. Но при аккуратном подходе и грамотном промте этот эффект удаётся свести к минимуму.

Turbo-режим и экономика подписки

Время — деньги. Особенно когда генерируешь по тридцать-сорок картинок в день для рабочего проекта. Именно поэтому появление turbo mode в своё время вызвало ажиотаж. Генерация в этом режиме занимает примерно десять-пятнадцать секунд вместо стандартных сорока-шестидесяти. Ложка дёгтя — расход «быстрых минут» увеличивается вдвое. То есть кошелёк станет легче, если не рассчитать нагрузку. На стандартном тарифе (тридцать долларов в месяц) выделяется пятнадцать «быстрых» часов, и при активном использовании turbo этих часов хватает на считаные дни. Выход — либо докупать время, либо переключаться в relax-режим, где генерация замедляется, зато лимитов нет.

Стоит задуматься и о Pro-подписке (шестьдесят долларов), если Midjourney — рабочий инструмент, а не хобби. Тридцать быстрых часов и приватный режим генерации, скрывающий изображения от общей галереи, — для коммерческих нужд это довольно весомый аргумент. Тем более что в конце 2024-го команда ввела пакетную генерацию из веб-интерфейса, позволяющую отправлять серию промтов одним махом и получать результаты «оптом».

Что насчёт видео?

Слухи. Тизеры. Обещания. Тема видеогенерации в Midjourney обсуждается с 2023 года, когда конкуренты — Runway, Pika, а затем и Sora от OpenAI — начали демонстрировать впечатляющие ролики длиной в несколько секунд. Дэвид Хольц неоднократно намекал, что его команда работает над видеомодулем, но торопиться не собирается. Подход, характерный для Midjourney: лучше выпустить позже, но с тем уровнем качества, к которому привыкли пользователи.

На момент первой половины 2025 года полноценного видеорежима внутри Midjourney так и не появилось. Однако в закрытом бета-тестировании уже мелькают короткие анимированные фрагменты — по три-четыре секунды, — созданные на основе статичных генераций. Качество пока неоднозначное: движение персонажей выглядит плавно, но сложные сцены с множеством объектов «рассыпаются». Многие считают, что до полноценного релиза видеогенерации пройдёт ещё несколько месяцев. Но сам факт движения в этом направлении вселяет оптимизм.

Редактор изображений в браузере

Встроенный редактор — пожалуй, самое недооценённое обновление. Работает он прямо на сайте и позволяет выделить кистью область картинки, написать для неё отдельный промт, и нейросеть перерисует именно этот фрагмент, не трогая остальное. По сути, это инпейнтинг, знакомый по Stable Diffusion и DALL-E, но интегрированный прямо в экосистему Midjourney без каких-либо сторонних плагинов.

Практический пример: сгенерировал идеальный пейзаж, но небо получилось слишком скучным. Выделяешь кистью верхнюю треть, пишешь «dramatic cumulus clouds with golden light», и через пятнадцать секунд небо преображается. Остальная часть картинки остаётся нетронутой. Ведь именно этого не хватало — точечного контроля над результатом. Раньше ради одной детали приходилось перегенерировать всю картинку целиком, теряя удачные элементы. А сейчас подход стал куда более щепетильным и хирургически точным.

Как изменились промты?

Любопытная тенденция. С каждой новой версией модели промты становятся… проще. Парадокс? Не совсем. Дело в том, что ранние версии Midjourney требовали длинных «заклинаний» с кучей модификаторов — —q 2 —stylize 750 —no blur — иначе результат получался непредсказуемым. Сейчас же модель настолько лучше понимает естественный язык, что для хорошего результата зачастую хватает обычного описания на два-три предложения.

Стоит, впрочем, помнить о нескольких подводных камнях. Во-первых, порядок слов в промте по-прежнему влияет на приоритет: то, что стоит в начале, модель «слышит» громче. Во-вторых, негативные промты (—no) работают лучше с конкретными понятиями, а абстрактные запреты вроде —no ugly практически бесполезны. Ну и, наконец, параметр —stylize (или —s) по-прежнему актуален: низкие значения дают более буквальное следование промту, а высокие — позволяют нейросети «фантазировать». Золотая середина для большинства задач — где-то в районе 250–400.

Сообщество и конкуренция

Гонка нейросетей напоминает формулу один: стоит одной команде вырваться вперёд, как остальные тут же поджимают. DALL-E 3 внутри ChatGPT стал невероятно удобным за счёт диалогового интерфейса. Stable Diffusion 3 вышел с открытым кодом, что дало энтузиастам полный контроль над генерацией. Flux от Black Forest Labs взорвал сцену фотореализмом. А Ideogram 2.0 научился рисовать текст на картинках лучше, чем кто-либо. И Midjourney вынуждена бежать быстрее, чтобы удержать свою аудиторию.

Все топовые нейросети в одном месте

Но у команды Хольца есть козырь — сообщество. Более шестнадцати миллионов пользователей в Discord, активное обсуждение промтов, обмен техниками и находками. Это не просто клиентская база — это живой организм, который сам генерирует идеи и запросы на новые функции. Да и сама эстетика Midjourney — узнаваемая, чуть «кинематографичная», с насыщенными цветами — стала своеобразным брендом. Многие выбирают именно этот инструмент не потому, что он объективно лучший по всем параметрам, а потому, что картинки «оттуда» выглядят определённым образом. Самобытность — тоже конкурентное преимущество.

Чего ждать дальше?

Среди утечек и официальных намёков вырисовывается несколько направлений. Первое — уже упомянутая видеогенерация, которая рано или поздно дойдёт до публичного релиза. Второе — работа с 3D: Хольц упоминал эксперименты с трёхмерными моделями, которые можно будет «обходить» камерой. Третье — более глубокая интеграция текстового редактора промтов, возможно с элементами диалога, когда пользователь описывает желаемый результат в несколько итераций, уточняя детали в живой беседе с моделью. И, наконец, мобильное приложение — тема, которая поднимается регулярно, но пока остаётся на стадии «скоро».

Отдельно стоит упомянуть потенциальную функцию style tuning на стероидах: создание персонального визуального стиля, обученного на десятках пользовательских референсов. По сути, тонкая настройка модели «под себя», без необходимости каждый раз прикреплять —sref. Если такое реализуют, для профессиональных иллюстраторов и дизайнеров это станет серьёзным подспорьем, а для всей индустрии — ещё одним сдвигом парадигмы.

Midjourney продолжает удивлять. Да, не все обновления идеальны, и кое-где нейросеть по-прежнему спотыкается — то пальцы лишние подрисует, то текст на вывеске перекосит. Но скорость, с которой команда латает слабые места и внедряет новые возможности, заслуживает уважения. Тем, кто ещё не пробовал свежие функции — стилевые ссылки, персонажные референсы, встроенный редактор, — самое время окунуться в эксперименты. Ведь инструмент хорош ровно настолько, насколько скрупулёзно ты его изучаешь. Удачи в творческих экспериментах — результат наверняка порадует.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *