Как исправлять искажённые Midjourney лица на сгенерированных фото

Нейросети за последние пару лет совершили настоящий рывок в генерации изображений, и Midjourney среди них — безусловный фаворит. Тысячи дизайнеров, маркетологов и просто энтузиастов каждый день создают с её помощью потрясающие иллюстрации, концепт-арты и даже фотореалистичные портреты. Но стоит присмотреться к лицам на сгенерированных картинках, и восторг нередко сменяется разочарованием. Шесть пальцев на руке — это ещё полбеды. А вот расплывшийся глаз, сросшиеся зубы или ухо, переехавшее на щёку — зрелище, мягко говоря, удручающее. И хотя версия Midjourney v6 (и тем более v6.1) заметно подтянула качество лиц, проблемы всё равно всплывают с завидной регулярностью. Поэтому каждому, кто работает с этим инструментом всерьёз, стоит разобраться в способах коррекции таких артефактов — от грамотного промтинга до финальной ретуши в сторонних редакторах.

Почему Midjourney искажает лица?

Дело в том, что нейросеть не «понимает» анатомию в привычном нам смысле. Она работает со статистическими паттернами: на миллионах фотографий модель «запомнила», что у человека обычно два глаза, нос по центру и рот ниже, но вот тонкие пропорциональные взаимосвязи ей даются с трудом. Особенно сильно это бросается в глаза, когда на одном изображении присутствуют несколько персонажей — нейросеть начинает путать черты, словно смешивая два лица в одно. К тому же ракурс в три четверти или резкий поворот головы провоцируют ещё больше ошибок. Лоб может оказаться непропорционально узким, линия челюсти — поплыть, а второй глаз — просто исчезнуть за странным наростом кожи. И это не баг, который однажды «починят навсегда». Это фундаментальная особенность диффузионных моделей.

Впрочем, не стоит воспринимать ситуацию как приговор. За два года сообщество Midjourney накопило внушительный арсенал приёмов, позволяющих минимизировать артефакты ещё на этапе генерации, а те, что всё-таки проскочили, — аккуратно убрать постобработкой. Нужно лишь разложить весь процесс по полочкам.

Грамотный промт — половина успеха

Самый бюджетный способ борьбы с кривыми лицами. Ведь от формулировки запроса зависит львиная доля результата. Первое, на что стоит обратить внимание, — указание стиля. Если в промте фигурируют слова «photorealistic», «editorial photo» или «shot on Canon EOS R5, 85mm», нейросеть тяготеет к реалистичной передаче черт и допускает меньше вольностей с анатомией. А вот абстрактные стили, вроде «surreal art» или «dreamlike», практически развязывают ей руки — тут причудливые лица скорее правило, чем исключение.

Следующий важный нюанс — детализация лица в самом тексте запроса. Довольно часто помогает прямая формулировка «detailed face», «symmetrical features» или «perfect facial anatomy». Да, звучит простовато, но нейросеть реагирует на такие подсказки. К слову, негативные промты (через параметр —no) тоже вносят свою лепту: —no deformed face, asymmetrical eyes, extra fingers — и модель хотя бы попытается обойти эти ловушки. Гарантии стопроцентной? Нет. Но вероятность чистого результата ощутимо растёт.

Отдельно стоит упомянуть параметр —stylize (или —s). Чем выше его значение, тем больше «художественной вольности» берёт на себя Midjourney. Для портретов с аккуратными чертами лица разумнее ставить —s в диапазоне от 50 до 250. При значениях выше 750 нейросеть начинает творить — в хорошем и плохом смысле одновременно. Ну и, конечно же, параметр —q 2 (quality) не стоит игнорировать: при повышенном качестве генерации мелкие детали прорабатываются скрупулёзнее.

Апскейл и вариации: второй шанс для неудачного лица

Получили сетку из четырёх изображений, и на одном лицо выглядит почти идеально? Не стоит спешить с финальным апскейлом. Сначала имеет смысл нажать на кнопку V (Variations) именно для этого варианта. Midjourney сгенерирует четыре новых интерпретации на основе выбранного изображения, и среди них вполне может оказаться версия с безупречными чертами. Это довольно простой, но эффективный приём, которым почему-то пренебрегают многие новички.

Вариации на «сильном» режиме (Strong Variation) дадут больше отклонений от оригинала, а «мягкий» (Subtle Variation) — сохранит композицию и основные пропорции, лишь слегка подкорректировав детали. Для исправления лица логичнее выбирать второй вариант. Ведь задача — не переделать всё с нуля, а именно «подтянуть» проблемную зону. А если и после серии вариаций лицо продолжает выглядеть странно, на помощь приходит функция Vary (Region) — настоящий спасательный круг для тех, кого устраивает всё, кроме одного несчастного глаза или подбородка.

Vary (Region) — точечная перерисовка

Инпейнтинг. Этот инструмент появился в Midjourney сравнительно недавно, но уже успел полюбиться профессионалам. Суть проста: после апскейла изображения нужно нажать кнопку Vary (Region), выделить кистью проблемный участок (в нашем случае — лицо или его часть) и отправить запрос на перегенерацию. Midjourney перерисует только выделенную область, стараясь сохранить стиль и цветовую палитру окружающего пространства.

Однако есть подводные камни. Во-первых, область выделения не стоит делать слишком маленькой — если обвести только один глаз, нейросеть может не «понять» контекст и вставить туда нечто совсем неожиданное. Лучше захватить чуть больше: всю верхнюю половину лица или даже лицо целиком. Во-вторых, при перерисовке можно дополнить промт уточнениями — например, добавить «calm expression, symmetrical eyes, soft lighting on face». Это направит генерацию в нужное русло. И в-третьих, результат с первого раза редко бывает идеальным, так что стоит запастись терпением и прогнать регион через три-четыре итерации. Кропотливо? Безусловно. Но когда на кону красивый коммерческий портрет, торопиться нет смысла.

Стоит ли использовать сторонние нейросети?

Короткий ответ — да. И это не костыль, а вполне рабочая профессиональная практика. Многие художники и дизайнеры используют Midjourney для создания общей композиции, а доводку лиц выполняют в специализированных инструментах. Один из самых популярных — CodeFormer. Этот нейросетевой реставратор лиц, обученный на огромном датасете портретных фотографий, буквально творит чудеса с размытыми и деформированными чертами. Загрузил картинку, подождал пару секунд — и получил лицо с чёткими пропорциями, ровной кожей и естественным выражением. Бесплатная веб-версия доступна на нескольких площадках, а для тех, кто работает локально, есть реализация на GitHub.

Ещё один добротный инструмент — GFPGAN (Generative Facial Prior GAN). Он тяготеет к тому же принципу: восстанавливает повреждённые или искажённые лица, опираясь на выученные закономерности реальной анатомии. Результат получается чуть менее «глянцевым», чем у CodeFormer, но зато более естественным — кожа сохраняет текстуру, а не превращается в пластик. К слову, оба инструмента интегрированы в Automatic1111 (популярный веб-интерфейс для Stable Diffusion), так что при желании можно выстроить целый конвейер: генерация в Midjourney, затем автоматическая коррекция лица через встроенный модуль.

Нельзя не упомянуть и FaceSwap-решения на базе InsightFace или ReActor. Принцип здесь иной: берётся реальная фотография лица (или качественно сгенерированный портрет) и «вживляется» в готовое изображение Midjourney. Подмена происходит с учётом освещения и угла поворота, так что результат выглядит на удивление органично. Этот метод особенно хорош, когда нужно сохранить конкретную внешность персонажа на протяжении серии изображений. Многие считают фейссвоп чем-то из арсенала дипфейков, но на самом деле в коммерческом дизайне и иллюстрации это вполне легитимный рабочий инструмент.

Ручная ретушь: Photoshop и аналоги

Старая школа. Но она по-прежнему стоит на ногах, и сбрасывать её со счетов было бы наивно. Иногда проще потратить пять минут в Adobe Photoshop, чем гонять нейросеть по кругу. Для мелких дефектов — вроде слегка съехавшей брови или размытого уголка рта — достаточно инструмента Liquify (Пластика). Он позволяет буквально «сдвинуть» пиксели на нужное место, подправив форму глаза, выровняв линию носа или вернув подбородку нормальные очертания. Процесс не сложный, но требует аккуратности: одно неловкое движение — и лицо «поплывёт» ещё сильнее.

Для более серьёзных повреждений пригодится генеративная заливка (Generative Fill), встроенная в последние версии Photoshop. По сути, это тот же инпейнтинг, но с мощью Adobe Firefly за спиной. Выделяешь проблемную область, пишешь текстовый запрос — и получаешь несколько вариантов заполнения. Результат часто настолько аккуратный, что швов не видно вовсе. А если Photoshop бьёт по бюджету, то бесплатный Photopea — браузерный аналог — справляется с базовой ретушью ничуть не хуже. Правда, генеративной заливки там нет, зато штамп, пластика и маски на месте.

Как избежать проблем ещё до генерации?

Профилактика всегда проще лечения. И это правило работает даже в мире нейросетей. Во-первых, стоит задуматься о ракурсе ещё на стадии написания промта: фронтальные портреты («front-facing portrait») получаются заметно чище, чем снимки с экстремальных углов. Во-вторых, одиночные персонажи всегда выигрывают у групповых сцен — чем больше лиц в кадре, тем выше шанс получить хотя бы одно искажённое. Ну и, наконец, стоит помнить про референсные изображения. Midjourney позволяет подгружать картинку через ссылку (—iw для веса изображения), и если в качестве референса использовать качественный портрет, модель будет опираться на него при построении черт лица.

Кстати, формат изображения тоже вносит свою лепту. Квадратные пропорции (—ar 1:1) для портретов работают лучше, чем, скажем, ультрашироформатные. Это связано с тем, что при соотношении 16:9 нейросеть вынуждена «растягивать» композицию, и лицо часто оказывается слишком мелким для качественной проработки. Параметр —ar 3:4 или —ar 4:5 — золотая середина для поясных и крупноплановых портретов.

Рабочий конвейер: от промта до финального файла

Теперь стоит собрать все эти приёмы в единую последовательность, которой удобно пользоваться на практике. Начинается всё с тщательно составленного промта, в котором прописаны стиль съёмки, освещение и прямое указание на детализацию лица. После генерации сетки из четырёх вариантов нужно выбрать наиболее удачный и прогнать его через серию Subtle Variations, если лицо не устраивает на сто процентов. Далее следует апскейл выбранного варианта и, при необходимости, точечная перерисовка через Vary (Region) с уточнённым промтом для лица.

Получившееся изображение отправляется в CodeFormer или GFPGAN для автоматической коррекции лицевых артефактов. На этом этапе мелкие несимметричности и размытости обычно исчезают. Если же остаются заметные «косяки» — странная текстура кожи, лишняя складка или неестественный блик в зрачке — финальную доводку лучше выполнить вручную, в Photoshop или его аналоге. Весь процесс, от первого промта до готового файла, занимает от десяти до тридцати минут. Да, это медленнее, чем просто нажать «Generate» и молиться, но и результат несопоставим.

Чего ждать от будущих версий?

Midjourney активно развивается, и с каждым обновлением лица на генерациях выглядят всё убедительнее. Буквально полтора года назад версия v4 выдавала настолько жуткие портреты, что интернет заполонили мемы про «нейросетевые кошмары». А сейчас v6.1 способна создавать лица, которые с первого взгляда не отличить от фотографии. Тем не менее, совершенства пока нет — и, вероятнее всего, ещё не одно поколение моделей сменится, прежде чем артефакты уйдут полностью. Тем более что усложнение сцен (несколько персонажей в динамике, нестандартная мимика, аксессуары на лице) по-прежнему остаётся серьёзным испытанием.

Впрочем, ждать идеальной версии — не самая мудрая стратегия. Инструменты для исправления доступны уже сегодня, и владение ими выгодно отличает профессионала от любителя. Освоив связку «грамотный промт + Vary Region + нейросетевой реставратор + ручная ретушь», можно получать коммерчески пригодные портреты хоть прямо сейчас. А каждое будущее обновление Midjourney будет лишь сокращать количество шагов в этом конвейере. Удачи в экспериментах — и пусть ваши нейросетевые портреты выглядят так, будто их снимал живой фотограф с дорогим объективом.