Какая версия Midjourney справляется с мелкими деталями и лицами лучше всего

Ещё пару лет назад нейросетевые генераторы изображений выдавали лица с шестью пальцами, расплывшимися зрачками и зубами, от которых становилось не по себе. Обыватель посмеивался, дизайнеры крутили носом, а скептики уверенно заявляли: «Машина никогда не нарисует человека так, чтобы не бросалась в глаза подделка». Прошло совсем немного времени — и ситуация изменилась до неузнаваемости. Midjourney, пожалуй, громче остальных заявила о себе именно в области реалистичной детализации, однако между версиями этой нейросети разница колоссальная. А потому стоит разобраться, какой именно релиз справляется с мелкими деталями и человеческими лицами лучше всего.

Почему детали и лица — главная головная боль нейросетей?

Дело в том, что генеративные модели работают с латентным пространством — сжатым математическим представлением картинки. Грубо говоря, нейросеть «думает» не пикселями, а абстрактными паттернами. И чем мельче элемент, тем легче ему потеряться в этой абстракции. Морщинка у глаза, ресница, тоненькая цепочка на шее, текстура кожи на пальцах — всё это для модели не больше, чем статистический шум, который она вольна интерпретировать по-своему. С лицами ситуация ещё щепетильнее. Ведь человеческий мозг эволюционно заточен на распознавание лиц: мы замечаем даже микроскопическую асимметрию, неестественный блик в радужке или странно выгнутую бровь. Именно поэтому малейший промах нейросети в области лица воспринимается зрителем как нечто жуткое — так называемый эффект «зловещей долины».

Версии с первой по третью: грубые наброски

Первые итерации Midjourney сегодня вспоминаются скорее с ностальгией. Версия 1, запущенная в начале 2022 года, генерировала изображения, больше похожие на сновидения — размытые, текучие, пропитанные странной атмосферой. О какой-то проработке лиц речи вообще не шло. Версия 2 сделала шаг вперёд в композиции, но мелкие детали по-прежнему тонули в общем хаосе цвета. А вот с третьей версией стало чуть интереснее: появилась более внятная структура, тела приобрели узнаваемые пропорции, однако лица всё ещё оставались довольно условными. Пять пальцев на руке? Роскошь. Два одинаковых глаза? Везение. И всё-таки именно V3 заложила фундамент, на котором впоследствии выросло нечто по-настоящему впечатляющее.

Что изменилось в четвёртой версии?

Переломный момент. V4, вышедшая осенью 2022-го, буквально перевернула представление о возможностях Midjourney. Разработчики полностью сменили архитектуру модели, и результат бросался в глаза с первого промпта. Лица стали заметно реалистичнее: появилась проработка кожи, более естественная форма носа и губ, даже уши перестали выглядеть как слепленные из пластилина. Кроме того, V4 научилась лучше справляться с руками — хотя шестой палец нет-нет да и всплывал, но куда реже, чем раньше. Текстуры ткани, волос и металла тоже стали богаче. Впрочем, до идеала оставалось далеко: на крупных планах лиц нейросеть порой «замыливала» глаза, а мелкие элементы вроде серёжек или отдельных прядей волос всё ещё вызывали вопросы.

V5 и V5.1 — первый настоящий фотореализм

Март 2023 года. Сообщество ждало пятую версию с нетерпением, и она не разочаровала. V5 резко повысила детализацию — изображения стали выглядеть так, будто сняты на добротную зеркальную камеру с хорошей оптикой. Кожа приобрела текстуру с порами, микроморщинками и тонким переходом тона. Глаза наконец-то засияли живым блеском, а радужная оболочка получила сложный рисунок, напоминающий реальный. Однако нужно отметить, что именно V5 отличалась определённой «холодностью» — лица выходили красивыми, но немного стерильными, словно с обложки глянца после ретуши.

V5.1, появившаяся чуть позже, добавила вариативности и характерности. Лица стали менее «кукольными», появились асимметрия и мелкие несовершенства — те самые нюансы, которые делают портрет живым. Да и с аксессуарами модель стала обращаться аккуратнее: тонкая цепочка на шее больше не сливалась с кожей, а текст на футболке хоть и оставался тарабарщиной, но хотя бы выглядел как настоящие буквы. К слову, именно V5.1 многие пользователи до сих пор вспоминают как золотую середину между художественностью и реализмом.

Шестая версия: скрупулёзная работа над нюансами

Конец 2023-го принёс V6. И тут разговор пошёл совсем серьёзный. Текст на изображениях — да, настоящий читаемый текст — стал реальностью, пусть и не без ошибок. Но главное — лица вышли на новый уровень. V6 научилась рисовать морщинки вокруг глаз при улыбке, передавать лёгкую красноту на кончике носа в холодную погоду, прорабатывать отдельные волоски бровей и пушок над верхней губой. Мелкие детали — пуговицы, строчки на ткани, резьба на ювелирном изделии — перестали быть расплывчатым пятном. Они стали осязаемыми.

Впрочем, ложка дёгтя тоже нашлась. V6 генерировала изображения заметно медленнее предшественниц, а промпты требовали более вдумчивого подхода — модель стала чувствительнее к формулировкам. Кроме того, на сложных многофигурных сценах лица второстепенных персонажей иногда «плыли», особенно если фигуры располагались на заднем плане. Но для портретов, крупных планов и детальных иллюстраций V6 оказалась настоящим кладезем возможностей.

Стоит ли гнаться за V6.1?

V6.1, вышедшая в 2024 году, довела до ума многое из того, что в V6 ещё хромало. Когерентность мелких элементов на сложных сценах заметно выросла: руки с правильным количеством пальцев стали нормой, а не приятным исключением. Текстуры кожи сделались ещё многослойнее — сквозь полупрозрачные участки на ушах или кончиках пальцев стало «просвечивать» подобие капиллярной сетки. Звучит как мелочь, но именно из таких мелочей складывается ощущение подлинной фотографии. Нельзя не упомянуть и прогресс в отрисовке зубов: если раньше улыбка часто превращалась в сплошную белую полосу, то теперь нейросеть прорабатывает каждый зуб по отдельности, с тенями и бликами.

Midjourney V7: новая планка или очередной эволюционный шаг?

Весна 2025 года — и вот на сцене появляется седьмая версия. Многие ожидали революцию, и в определённом смысле они её получили. V7 работает на совершенно переосмысленной архитектуре, и разница с V6.1 бросается в глаза буквально с первого запроса. Лица в V7 достигли того уровня, когда отличить сгенерированный портрет от студийной фотографии стало довольно сложно даже для натренированного глаза. Тонкие морщинки, асимметрия лица, естественная неровность линии роста волос, характерный жирный блеск на Т-зоне — всё это V7 передаёт с пугающей точностью.

Но настоящая изюминка — мелкие детали. Седьмая версия научилась рисовать кружевной узор на ткани так, что можно различить отдельные петли. Текст на вывесках читается почти без ошибок (хотя русский язык пока остаётся подводным камнем). Ювелирные украшения, пуговицы на манжетах, плетение корзины, гравировка на металле — всё это V7 отрабатывает с внушительной скрупулёзностью. К тому же модель стала значительно лучше понимать контекст: если в промпте указано «старая кожаная сумка», на ней действительно появятся потёртости и мелкие трещинки, а не просто коричневый прямоугольник с ручкой.

Ну и, конечно же, стоит отметить прогресс в области рук и пальцев. V7 практически решила эту вечную проблему. Да, единичные артефакты ещё встречаются — особенно на сложных ракурсах с переплетёнными пальцами. Но в девяти случаях из десяти руки выглядят безупречно. Ногти, кутикулы, складки на костяшках — всё на месте.

Какую версию выбрать для работы с лицами?

Ответ зависит от задачи. Для художественных иллюстраций, где важна атмосфера и стилизация, V5.1 по-прежнему остаётся добротным выбором — она даёт то самое «нарисованное вручную» ощущение, которого порой не хватает более поздним версиям. Для коммерческих портретов и фотореализма оптимальна V6.1 или V7: они выдают результат, который после минимальной доработки в Photoshop практически неотличим от фотосессии. А вот если речь идёт о детализированных сценах с множеством мелких элементов — вывески, интерьеры, натюрморты, архитектурные виды — тут V7 солирует безоговорочно.

Тем более что нет смысла переплачивать за старые подписки ради доступа к устаревшим моделям. Midjourney позволяет переключаться между версиями прямо в промпте (достаточно добавить параметр —v с нужным номером), так что экспериментировать можно свободно. Стоит потратить вечер, прогнав один и тот же портретный промпт через V5, V6 и V7, — разница расставит все точки над «ё» куда нагляднее любого обзора.

Тонкости промпта: как выжать максимум из детализации

Сама по себе версия — это ещё полдела. Без грамотно составленного промпта даже V7 способна выдать нечто невнятное. Начать нужно с конкретики. Вместо абстрактного «красивая женщина» стоит описать возраст, этническую принадлежность, выражение лица, направление взгляда, освещение. Чем больше зацепок получит модель, тем точнее окажется результат. К слову, добавление фотографической терминологии творит чудеса: указание на конкретный объектив (скажем, 85mm f/1.4), тип освещения (Rembrandt lighting) и даже марку камеры (Canon EOS R5) помогает нейросети сориентироваться в стилистике.

Отдельно стоит упомянуть параметр —style raw, который убирает «фирменную» эстетику Midjourney и выдаёт более нейтральную картинку. Для портретов с акцентом на реализм этот режим порой работает лучше стандартного. А параметр —q 2 (повышенное качество) увеличивает время генерации, зато добавляет мелких деталей, которые в стандартном режиме теряются. Впрочем, на V7 разница между —q 1 и —q 2 стала менее заметной — модель и так старается выжать максимум.

Сравнение с конкурентами: только ли Midjourney умеет в лица?

Было бы нечестно умалчивать о том, что Midjourney — не единственный игрок на этом поле. DALL-E 3 от OpenAI тоже серьёзно подтянул качество лиц, а Stable Diffusion XL с правильными моделями (особенно при использовании дополнительных LoRA-адаптеров) способен выдавать портреты поразительного качества. Но есть один нюанс. Midjourney отличает стабильность результата. Там, где Stable Diffusion требует десятки попыток и ручной настройки, Midjourney выдаёт приемлемое лицо с первого-второго раза. Для профессионала, у которого время — деньги, это весомый аргумент.

DALL-E 3 тяготеет к «мультяшности» и сглаженным текстурам, что для фотореалистичных портретов не всегда подходит. Flux от Black Forest Labs неплох в деталях, но с лицами пока нестабилен. И всё же конкуренция идёт на пользу всем. Ведь именно она заставляет команду Midjourney с каждым обновлением поднимать планку ещё выше.

Подводные камни: что всё ещё не идеально

Даже V7 — не панацея. Есть несколько проблем, которые пока не удалось решить полностью. Во-первых, полный профиль лица (вид сбоку) нейросеть отрабатывает хуже, чем ракурс в три четверти. Во-вторых, при генерации групповых портретов (более трёх человек) лица на заднем плане могут терять индивидуальность — нейросеть словно «экономит» вычислительные ресурсы на тех, кто не в фокусе. Ну, а с зубами, хоть прогресс и очевиден, иногда случаются казусы: лишний резец или слившиеся моляры.

Не стоит забывать и про этнические искажения. Модель обучена на неравномерной выборке, и лица некоторых этнических групп прорабатывает менее уверенно. Это не столько техническая проблема, сколько вопрос данных, на которых тренировалась сеть. Разработчики постепенно выравнивают баланс, но до полной справедливости ещё далеко.

Как проверить качество лица на сгенерированном изображении?

Простой, но действенный способ — увеличить картинку до 200–300% и внимательно рассмотреть зону вокруг глаз. Именно тут всплывают основные артефакты: неестественное слияние ресниц, асимметрия зрачков, «двоение» бликов. Следующий контрольный участок — линия роста волос у лба и висков. Нейросеть часто «размазывает» этот переход, делая границу между кожей и волосами неестественно резкой или, наоборот, слишком мягкой. Ну и уши — вечная ахиллесова пята генеративных моделей. В V7 с ними стало значительно лучше, но при боковом ракурсе внутренняя структура ушной раковины порой выглядит упрощённо.

К тому же стоит обращать внимание на отражения в глазах. Живой глаз отражает окружающую среду, и продвинутые версии Midjourney это учитывают. Но иногда в одном глазу можно увидеть отражение окна, а в другом — что-то совершенно постороннее. Для социальных сетей такой промах незаметен, а вот для печати крупным форматом — критичен.

Что ждёт впереди?

Команда Midjourney уже анонсировала работу над V8, и утечки из закрытых тестов намекают на ещё более серьёзный прорыв в когерентности деталей. Львиная доля усилий, судя по всему, направлена на генерацию последовательных изображений одного и того же персонажа — так называемый character consistency. Если получится, это откроет колоссальные возможности для иллюстраторов, геймдизайнеров и создателей комиксов. Да и фотографам-концептуальщикам такой инструмент придётся по вкусу.

На сегодняшний день, если требуется максимальная проработка мелких деталей и реалистичные лица, — V7 вне конкуренции. Она совмещает в себе скрупулёзность в текстурах, стабильность в отрисовке рук и лиц, а также гибкую интерпретацию промптов. Не стоит бояться экспериментов: переключайтесь между версиями, комбинируйте параметры и не ленитесь прогонять один промпт по несколько раз. Нейросеть — инструмент, и от мастерства того, кто им управляет, зависит не меньше, чем от самой модели. Удачи в генерации — пусть каждый портрет получается именно таким, каким задумывался.