Без скучного, строго регламентированного портрета анфас не обходится ни одна бюрократическая процедура. Устав от суеты классических фотоателье с их жёсткими табуретками, поручить эту задачу генеративным моделям пытаются многие профи. Плохой сон или неудачная причёска накануне визита в визовый центр — это не всегда приговор, ведь цифровой двойник стерпит любые правки. Трепет своей монументальностью всегда вызывала египетская цивилизация, и именно такой застывший, лишённый эмоций вид требуется от человека на официальном документе. Буквально десятилетие назад подобный уровень контроля над изображением был доступен лишь ретушёрам экстра-класса, но сейчас собственные пайплайны собирает львиная доля энтузиастов. И всё же дефолтные генерации слишком тяготеют к журнальному глянцу. Но чтобы не ошибиться, нужно собрать выверенный, скрупулёзный текстовый каркас.
В чём кроется главная проблема?
Эстетичны ли стандартные нейросетевые портреты? Само по себе полотно не отличается документальной суровостью, оно выглядит пугающе привлекательно. Обучались модели ведь на красивых, профессионально выставленных кадрах. В представлении многих обывателей достаточно написать короткую фразу, но на самом деле результат вас огорчит. Выдаст алгоритм идеальную кожу, роскошный объём волос да кинематографичный свет. А для паспорта требуется нам откровенная, почти удручающая реалистичность. Поэтому целенаправленно «ухудшать» картинку до уровня казённой вспышки стоит уже на этапе формирования задумки. Это тяжёлый, но эффективный способ. К слову, именно этот диссонанс между красотой и документальностью бьёт по бюджету времени, заставляя переделывать запросы сотни раз.
Освещение
Вспышка бьёт прямо в лоб. Это классика. Ведь именно плоский фронтальный луч лишает лицо изящных теней, обнажая ту самую требуемую геометрию скул и подбородка. Начинать работу с композицией нужно с постановки света. Для начала в промт вписывается расположение камеры, затем следует тип освещения, ну и, наконец, фиксируются параметры объектива. С фокусным расстоянием дело обстоит сложнее, однако спасает указание конкретных пятидесяти миллиметров. Рабочий фрагмент может выглядеть так:
front flash photography, flat boring lighting, harsh shadow behind the head, 50mm lens, f/8, strict sharp focus
Тем более, что добавление фразы «plain white background» или «light grey background» сразу задаст нужный тон. А вот название старой цифровой мыльницы в конце запроса внесёт свою лепту в создание правильного, слегка несовершенного антуража.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Ошибки алгоритмов: пластиковая кожа
Гладкий фарфоровый лоб. Зрелище удручающее для любого инспектора паспортного стола. Живыми людьми нас делают ведь именно поры, лёгкая асимметрия и мелкие морщинки. Сопротивляться нейросеть будет, разумеется, пытаясь всеми силами облагородить вашего клона. Нужно отметить, что дескрипторы несовершенств внедряются в текстовый запрос обязательно. К первой группе таких спасительных команд относится «raw unretouched photo». Далее следует обязательное уточнение «ultra realistic skin texture, visible pores, slight facial asymmetry». Последним в списке идёт «neutral blank expression, strictly facing forward, eye level». К тому же, фраза «amateur ID photography» иногда творит чудеса, сбивая с модели ненужную спесь. Глаза же, лишённые красивых студийных бликов, окончательно завершат эту картину. И всё-таки не стоит забывать о текстуре губ, прописав «dry lips», чтобы избежать эффекта глянцевой помады.
Как добиться портретного сходства?
Сложно ли перенести реальные черты лица на сгенерированную основу? Да, но результат того стоит. Настоящий кладезь возможностей открывается при использовании Stable Diffusion в связке с кастомными инструментами. Обычный текстовый запрос здесь не справится, потребуется интеграция исходника. Один из самых популярных видов переноса — применение модуля IP-Adapter. Затем можно рассмотреть более продвинутый метод, подразумевающий тренировку собственной небольшой LoRA. Файл, загруженный в веб-интерфейс (обычно в формате safetensors), скомбинированный с контроллером позы, снабжённый весом около ноль целых семи десятых, обеспечит внушительный уровень сходства. С весом лучше не перебарщивать, иначе начнётся выгорание пикселей и наляпистость. Да и самим алгоритмам комфортнее работать с умеренными значениями. Впрочем, даже стопроцентное сходство не избавит от необходимости тонкой настройки параметров.
Что насчёт фасона?
Гардероб. Выбор одежды кажется довольно простым шагом. Обязательно ли наряжаться в сложный деловой костюм? Вовсе нет. Строгий шерстяной пиджак часто провоцирует артефакты геометрии воротника, ломая общую структуру плеч. От вычурных нарядов лучше отказаться в пользу банальной однотонной базы. Выручит тёмный минималистичный свитер. Формулировка «dark grey plain crew neck sweater» или «simple black button-up shirt» не сильно ударит по кошельку вашего свободного времени при постобработке. Алгоритм лучше не перегружать описанием галстуков и украшений, ведь они лишь усложняют задачу машине. Безусловно, лаконичный внешний вид бросается в глаза своей аккуратностью. А если ещё вспомнить строгие требования многих консульств, то отсутствие лишних деталей на шее становится обязательным постулатом.
Скрытые махинации с настройками
Количество шагов решает многое. Многие считают тридцать итераций эталоном, но на самом деле для фото на документы этого бывает категорически мало. Вычисляющий микродетали кожи алгоритм тяготеет к более длительному просчёту. Поэтому имеет смысл поднять значение до сорока или даже пятидесяти шагов. Само собой, выбор сэмплера тоже внесёт свою лепту в итоговый результат. С задачей создания реалистичной текстуры отлично справляется метод Эйлера, усиленный дополнительным шумом. Нельзя не упомянуть и про CFG Scale, значение которого желательно держать в пределах от пяти до семи. Значительный перевес в сторону строгого следования промту убьёт живость лица, превратив его в маску. Подводные камни кроются и в разрешении кадра. Изначально генерировать гигантское полотно нет смысла, лучше сделать картинку размером пятьсот двенадцать на семьсот шестьдесят восемь пикселей, а уже затем прогнать её через качественный апскейлер.
Санитарный контроль негативного промта
Многие считают позитивное описание ключом к успеху, однако отсечение лишнего имеет куда больший вес. Буквально пару лет назад энтузиасты грызлись с лишними пальцами, сейчас же главная беда — неуместные эмоции. Ложка дёгтя в виде лёгкой ухмылки моментально бракует весь снимок. В поле негативного запроса льётся рекой целый список жёстких запретов. Внести лепту в чистоту кадра поможет такой блок:
smile, teeth, cinematic lighting, dramatic shadows, blurred background, depth of field, makeup, jewelry, colorful clothes, retouch, smooth skin, professional retouching
Отдельно стоит упомянуть запрет на наклон головы:
tilted head, looking away
Мусор, сгенерированный богатой фантазией нейросети, этот спасательный круг отсекает на корню. Да и лишний бомонд на заднем фоне нам совершенно ни к чему.
Готовые промты: примеры
А теперь стоит разложить по полочкам собранные элементы. Для создания мужского колоритного портрета отлично подойдёт следующая добротная конструкция:
A medium close-up shot of a 35-year-old Caucasian man, strictly front-facing, neutral blank expression, closed mouth, looking directly at the camera. Wearing a plain dark blue sweater. Plain white background, passport photo style, harsh frontal flash, flat lighting. Unretouched skin, visible pores, slight asymmetry, raw photo, 50mm lens, f/8, photorealistic, 8k resolution, amateur camera
Для женского образа процесс предстоит не менее щепетильный. Особого внимания требуют волосы, зачёсанные за уши, открывающие овал лица, зафиксированные невидимками. Рабочий женский запрос звучит так:
A medium close-up shot of a 28-year-old woman, strictly front-facing, neutral expression, no makeup, hair tucked behind ears, neat hairstyle. Wearing a simple black blouse. Plain light grey background, passport photo style, direct flat flash, unretouched realistic skin texture, sharp focus
И всё же, эти шаблоны дают лишь базовый старт.
Стоит ли использовать Inpainting?
Кисть закрашивает дефект. Первая генерация редко бывает идеальной. Всплывут мелкие ошибки: то тень от носа ляжет криво, то цвет глаз окажется неоднозначным. За сиюминутным результатом гнаться не стоит, бездумно нажимая кнопку повтора. Иногда удачный вариант приходится закидывать в режим частичной перерисовки, чтобы точечно исправить съехавшую линию плеча. Этот скрупулёзный процесс отнимет немного сил, однако уж точно сэкономит нервы при подаче заявления. Естественно, понадобится небольшая цветокоррекция в графическом редакторе (чтобы выровнять баланс белого). Вся суть в том, что стопроцентный ГОСТ нейросети пока не способны выдать без участия человека. Обе стороны медали нужно принимать как данность: алгоритм генерирует надёжную базу, а человек доводит её до ума. Удачи в создании безупречного цифрового аватара, пусть этот новый снимок порадует домочадцев и пройдёт все инстанции с первого раза! Перевоплощение завершено.

