Обзор возможностей генерации изображений в старой версии Midjourney v4

Нейросети для генерации картинок ещё пару лет назад казались чем-то из области научной фантастики, а сегодня об этих инструментах не слышал разве что совсем далёкий от интернета обыватель. Львиная доля споров в профессиональном сообществе крутилась и продолжает крутиться вокруг Midjourney — сервиса, который буквально перевернул представление о том, на что способна машина в сфере визуального творчества. Однако мало кто сейчас вспоминает о четвёртой версии этого движка, хотя именно она в своё время задала те самые стандарты, к которым потом тяготели все последующие обновления. А ведь разобраться в её нюансах стоит хотя бы для того, чтобы понять, откуда растут ноги у современных алгоритмов и почему некоторые старые приёмы до сих пор работают лучше новых.

Все топовые нейросети в одном месте

Как появилась четвёртая версия и чем она отличалась от предшественниц?

Осенью 2022 года команда Дэвида Хольца выкатила Midjourney v4, и для тех, кто экспериментировал с предыдущими итерациями, разница бросалась в глаза моментально. До этого третья версия довольно неплохо справлялась с абстракциями и стилизованными иллюстрациями, но вот с реалистичными лицами дело обстояло удручающе. Руки с шестью пальцами, глаза на разной высоте, зубы, сливающиеся в однородную массу — всё это было нормой. И вот четвёрка буквально за ночь подняла планку. Нужно отметить, что скачок качества ощущался не только в реализме. Сама способность нейросети «понимать» сложные текстовые промпты стала на порядок точнее. Если раньше приходилось танцевать с бубном, чтобы получить хотя бы отдалённо похожий на замысел результат, то v4 начала угадывать настроение и композицию с первого-второго захода.

Впрочем, идеальной её назвать было нельзя. Это надо признать честно. Дело в том, что четвёртая версия работала на совершенно новой архитектуре, отличной от тех трёх предыдущих. Команда разработчиков привлекла внешних специалистов по машинному обучению, и модель тренировали с нуля. Отсюда — и неожиданные сильные стороны, и довольно специфические слабости, которые всплывали при определённых типах запросов. К тому же привычный творческий хаос ранних версий, за который многие полюбили Midjourney, слегка поутих. Картинки стали «причёсаннее», предсказуемее, а некоторые пользователи даже жаловались на потерю той самой дикой изюминки.

Работа с промптами в Midjourney v4

Промпт — сердце любой генерации. Без грамотно составленного текстового запроса даже самая продвинутая нейросеть выдаст нечто невразумительное. В четвёртой версии механика чтения промптов претерпела серьёзные изменения по сравнению с v3. Во-первых, движок стал гораздо лучше воспринимать длинные описания. Раньше после пятнадцати-двадцати слов модель начинала «терять нить» и игнорировала хвост запроса. А вот v4 спокойно переваривала конструкции из тридцати-сорока слов, причём даже порядок упоминания деталей влиял на итоговое изображение. Во-вторых, появилась куда более тонкая чувствительность к стилевым указаниям: достаточно было добавить «in the style of» с именем конкретного художника, и нейросеть довольно точно попадала в нужную эстетику.

Все топовые нейросети в одной подписке! 🚀

Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».

Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL

Отдельно стоит упомянуть так называемые «мультипромпты» — возможность разделять части запроса двойным двоеточием. Скажем, конструкция hot dog::2 food::1 указывала модели, что речь идёт именно о еде, а не о собаке в жаркий день. Весовые коэффициенты после двоеточий позволяли расставлять акценты, и это буквально спасательный круг для тех ситуаций, когда нейросеть упорно интерпретировала фразу не так, как задумывал автор. Кстати, отрицательные веса тоже работали: можно было написать forest landscape::1 people::-0.5, и алгоритм старался убрать людей из сцены. Не всегда успешно, но сама попытка уже внушала уважение.

Стоит ли было гнаться за реализмом?

Многие считали, что главное достижение v4 — именно фотореалистичная генерация. Но на самом деле всё немного сложнее. Да, портреты стали выглядеть убедительнее: текстура кожи, блики в зрачках, естественное освещение — модель научилась воспроизводить всё это на вполне приличном уровне. Однако до настоящей фотографии ей было как до луны пешком. Руки по-прежнему оставались ахиллесовой пятой: четыре пальца, сросшиеся фаланги, странные углы сгибов. Ведь именно мелкая моторика человеческих кистей, с её невероятной сложностью, ставила в тупик все генеративные модели того периода.

А вот где v4 по-настоящему солировала — так это в полуреалистичных стилизациях. Запрос вроде cinematic portrait, soft bokeh, 85mm lens, golden hour выдавал результаты, которые без подписи легко принимались за кадры из фильма. Не фотография. Не иллюстрация. Что-то на стыке, обладающее собственным колоритным шармом. И именно эта «долина» между реальностью и фантазией стала настоящим кладезём для дизайнеров, которые использовали генерации как мудборды и референсы.

Параметры и настройки генерации

Техническая сторона. Без неё никуда. В Midjourney v4 появился набор параметров, дописываемых в конце промпта через двойное тире, и каждый из них заметно влиял на финальный результат. Начать нужно с —quality (или сокращённо —q). Этот параметр регулировал, сколько вычислительных ресурсов тратилось на одну генерацию. Значение по умолчанию — единица. При —q 2 картинка обрабатывалась вдвое дольше, зато детализация возрастала, текстуры становились богаче, а мелкие элементы прорисовывались чётче. Но тут есть подводные камни: удвоение качества не означало удвоение «красоты». Иногда на —q 0.5 получались более живые, спонтанные образы, потому что модель меньше «вылизывала» результат.

Следующий важный критерий — —stylize (или —s). Он отвечал за то, насколько сильно нейросеть привносит собственное «видение» в картинку. Низкие значения (от 0 до 100) заставляли модель строго следовать промпту, почти не добавляя отсебятины. Высокие значения (750 и выше) развязывали ей руки, и результат мог далеко уйти от исходного описания, зато часто оказывался эстетически более цепляющим. Большинство опытных пользователей работали в диапазоне 250–500, стараясь поймать баланс между контролем и творческой свободой. Ну и, конечно же, стоит вспомнить про —ar — соотношение сторон. До четвёртой версии квадрат 1:1 правил безраздельно, а v4 спокойно генерировала панорамные 16:9 и вертикальные 9:16 без критичной потери композиции.

Что такое «апскейл» в контексте v4?

При каждой генерации Midjourney выдавала сетку из четырёх миниатюр (примерно 512×512 пикселей каждая). Задача пользователя — выбрать наиболее удачную и нажать кнопку U1–U4 для увеличения. Вот тут v4 преподнесла неоднозначный сюрприз. Апскейлер предыдущих версий довольно грубо дорисовывал детали при увеличении, что иногда приводило к появлению артефактов и «замыленных» участков. Четвёрка пошла другим путём: при увеличении модель фактически перерисовывала изображение заново, сохраняя общую композицию, но добавляя новые детали, которых в миниатюре не было. Это означало, что финальная большая картинка могла отличаться от превью. Иногда — приятно. Иногда — не очень.

Дополнительно после апскейла появлялись кнопки Vary (Strong) и Vary (Subtle), позволявшие сгенерировать вариации выбранного изображения. Strong давал заметные изменения в деталях и компоновке, а Subtle лишь слегка модифицировал текстуры и цвета. Эта система вариаций — довольно мощный инструмент для тех, кто не хотел начинать с нуля, но чувствовал, что до идеала не хватает буквально пары штрихов. К слову, максимальное разрешение после апскейла в v4 составляло 1024×1024 пикселей (при квадратном соотношении). По нынешним меркам это скромно, но в конце 2022-го смотрелось вполне убедительно.

Стилевой диапазон: от живописи до киберпанка

Настоящий антураж. Вот чем v4 приковывала внимание даже скептиков. Стилевой разброс этой версии был грандиозным. Хочется акварель в духе Уильяма Тёрнера? Без проблем. Масляная живопись с густыми мазками, напоминающими манеру Ван Гога? Легко. Глянцевый 3D-рендер в стиле Pixar? Пожалуйста. Гравюра на дереве, советский конструктивизм, японская гравюра укиё-э — модель тяготела к визуальному разнообразию и справлялась с большинством стилевых запросов на удивление достойно.

Но ложка дёгтя тоже имелась. Некоторые стили четвёрка освоила поверхностно. Например, с минимализмом дело обстояло сложнее: нейросеть норовила «перенасытить» изображение деталями, даже если в промпте стояло minimalist и simple composition. Это связано с тем, что архитектура модели оптимизировалась под визуально богатые сцены, и пустое пространство она воспринимала как повод что-нибудь туда дорисовать. Да и с текстом на изображениях беда стояла колоссальная: любая попытка вставить надпись превращалась в набор случайных закорючек, лишь отдалённо напоминающих латиницу. Впрочем, с кириллицей ситуация была ещё хуже — модель о ней даже не подозревала.

Как v4 справлялась с композицией и глубиной?

Композиционная грамотность — один из тех аспектов, где четвёрка совершила ощутимый рывок. Предыдущие версии часто плющили объекты на плоскость, лишая сцену ощущения пространства. В v4 же модель научилась выстраивать вполне убедительную воздушную перспективу: передний план чётко прорисован, средний — чуть мягче, задний — подёрнут дымкой. Причём это работало не только в пейзажных сценах, но и в интерьерных, и даже в портретных генерациях.

Особый интерес вызывала работа с источниками света. Нужно отметить, что до v4 освещение в генерациях выглядело плоским, словно сцену заливали одной большой софтбокс-лампой. А вот в четвёрке появились контрастные тени, контровой свет, рефлексы на поверхностях, каустика на воде — всё то, что делает изображение объёмным и «дышащим». Запрос dramatic lighting, rim light, chiaroscuro выдавал результаты, которые профессиональные фотографы называли «неплохими» — а от нейросети конца 2022 года это был серьёзный комплимент.

Подводные камни и типичные ошибки

Задача не из лёгких — добиться стабильного результата в v4, не зная её характерных слабостей. Одна из главных проблем — «слипание» объектов. Если в промпте упоминались два или более персонажа, модель частенько объединяла их черты в одного гибрида. Запрос вроде a knight and a dragon standing face to face мог обернуться рыцарем с драконьей головой или драконом в латных доспехах. Дело в том, что алгоритм не всегда корректно разделял семантические зоны ответственности для разных объектов в промпте.

Ещё одна распространённая головная боль — отсутствие пространственного контроля. Нельзя было точно указать, где именно на холсте должен находиться объект. «Красный мяч в левом нижнем углу» с равной вероятностью оказывался в центре, справа или вообще исчезал. Этот нюанс особенно бил по тем, кто пытался использовать Midjourney для коммерческих задач с жёсткими макетами. И всё-таки существовал обходной путь: можно было загрузить эскиз-референс через параметр —iw (image weight), задав желаемую компоновку, и модель старалась ей следовать. Не идеально, но лучше, чем ничего.

Версия v4 в сравнении с конкурентами того периода

На рубеже 2022–2023 годов рынок генеративных моделей переживал настоящий бум. DALL-E 2 от OpenAI уже несколько месяцев работал в публичном доступе, Stable Diffusion набирал обороты в open-source-сообществе, да и менее известные проекты вроде Craiyon (бывший DALL-E Mini) собирали свою аудиторию. На фоне всего этого Midjourney v4 уверенно занимала нишу «для тех, кому нужна эстетика, а не гибкость». Дело в том, что по уровню художественной выразительности четвёрка оставляла конкурентов далеко позади. DALL-E 2 генерировал более «стерильные» изображения, лишённые того самого колорита. Stable Diffusion давал больше контроля (особенно при локальной установке с кастомными моделями), но требовал куда более скрупулёзной настройки.

А вот по скорости генерации Midjourney v4 проигрывала Stable Diffusion, запущенному на мощной локальной видеокарте. Среднее время создания одной сетки из четырёх превью в v4 составляло около шестидесяти секунд, тогда как хорошо оптимизированный Stable Diffusion выплёвывал аналогичный результат за пятнадцать-двадцать секунд. Но тут надо помнить, что Midjourney работала через Discord-бота, целиком в облаке, и от пользователя не требовалось ни мощного железа, ни технических знаний. Это серьёзное преимущество для дизайнеров, иллюстраторов и маркетологов, далёких от мира Python-скриптов и конфигурационных файлов.

Что осталось за кадром: скрытые возможности

Среди опытных пользователей четвёртой версии ходили свои «рецепты», и некоторые из них творили настоящие чудеса. Один из таких приёмов — техника «перекрёстного промптинга». Суть в том, что автор сначала генерировал абстрактную текстуру или паттерн, затем загружал его как референс и дополнял текстовым описанием конкретного объекта. Результат получался самобытный, с необычной цветовой палитрой и текстурой, которую невозможно было получить одним лишь текстовым промптом. Тем более что модель охотно подхватывала цветовые гаммы из загруженных изображений.

Все топовые нейросети в одном месте

Кроме того, существовал малоизвестный параметр —chaos (от 0 до 100), регулирующий степень разнообразия между четырьмя превью в одной генерации. При нулевом значении все четыре варианта получались почти одинаковыми — отличались лишь мелкие детали. А при —chaos 80 и выше каждая из четырёх миниатюр выглядела так, словно её создавали по совершенно разным промптам. Это довольно удобно на этапе поиска идеи, когда автор ещё не определился с направлением. Ведь вместо четырёх похожих картинок получаешь четыре принципиально разных концепции, и дальше уже развиваешь ту, что цепляет глаз.

Почему v4 всё ещё вспоминают с теплотой?

Казалось бы, зачем оглядываться назад, когда существуют v5, v6 и даже экспериментальные альфа-модели? Но ностальгия — штука иррациональная. И здесь она замешана не только на сентиментальности. Всё-таки четвёртая версия застала тот момент, когда ИИ-арт ещё воспринимался как диковинка, а не как повседневный рабочий инструмент. Каждая удачная генерация вызывала искренний восторг, а неудачи — смех и желание попробовать ещё раз. Это ощущение первооткрывателя, которое пятая и шестая версии, при всём их техническом совершенстве, воспроизвести уже не способны.

К тому же у v4 был свой характерный «почерк» — чуть более тёплая цветовая температура, мягкий добротный контраст, едва заметная стилизация даже в «реалистичных» генерациях. Некоторые художники целенаправленно возвращались к четвёрке для определённых проектов, потому что последующие версии стали слишком «чистыми», слишком правильными. Как идеально отретушированная фотография, в которой потерялась душа. Впрочем, это дело вкуса, и спорить тут можно бесконечно.

«Midjourney v4 — это как плёночная камера в эпоху цифровых зеркалок. Технически уступает, но даёт тот самый характер, который невозможно подделать фильтрами.» — распространённое мнение в AI-арт-сообществах.

Кто бы что ни говорил, четвёртая версия Midjourney оставила внушительный след в истории генеративного искусства. Она доказала, что нейросеть способна не просто рисовать, а создавать визуальный антураж, приковывающий внимание. И пусть сегодня её возможности кажутся скромными на фоне новых релизов — именно v4 научила тысячи людей мыслить промптами и видеть в текстовом описании будущую картину. Удачи тем, кто только начинает осваивать мир ИИ-генерации: стоит помнить, что даже устаревший инструмент в умелых руках порой выдаёт результат, способный удивить и порадовать.