Готовый промт: девушка превращается в ребёнка (ИИ-трансформации и генерация видео)

В сети представлено бессчётное множество примеров работы нейросетей, от фотореалистичных портретов до фантастических пейзажей, которые, кажется, сошли со страниц научно-фантастических романов. Многие пользователи уже освоили базовые запросы и с лёгкостью генерируют статичные изображения. Однако добиться стабильного, а главное, контролируемого результата в сложных динамических трансформациях, вроде изменения возраста персонажа, – задача куда более скрупулёзная и нетривиальная. Но чтобы не наткнуться на «подводные камни» и получить впечатляющий результат, стоит разложить по полочкам механику создания таких промтов.

Базовый промт для старта: фотореализм

Начать нужно с основ. Прежде чем заставлять модель анимировать превращение, стоит научиться получать качественные и, что важнее, консистентные изображения начальной и конечной точки. Главная цель — сохранить узнаваемость черт лица, иначе вся магия пропадёт. Довольно часто нейросеть, получив запрос на «девушку» и «ребёнка», генерирует двух совершенно разных людей. Чтобы избежать этого, в промте необходимо закрепить якорные детали внешности.

Возьмём для примера простой, но добротный запрос для Midjourney или Stable Diffusion:

photo of a beautiful 25-year-old woman, long curly red hair, bright green eyes, freckles on her nose, smiling softly, cinematic lighting, shot on Canon EOS R5, 85mm lens, f/1.8 —ar 16:9

Здесь мы задали не только возраст и внешность (рыжие кудрявые волосы, зелёные глаза, веснушки), но и технические параметры, которые подталкивают ИИ к фотореализму. Теперь, чтобы получить её детскую версию, мы меняем только возраст:

photo of a cute 5-year-old girl, long curly red hair, bright green eyes, freckles on her nose, smiling playfully…

Сравнив результаты, можно оценить, насколько модель сохранила идентичность. Это же упражнение – спасательный круг для отладки более сложных конструкций.

Как добиться плавного перехода возраста?

Задача не из лёгких. Ведь здесь мы говорим уже не о двух статичных картинках, а о самом процессе. Простое перечисление в духе woman turning into a child даст хаотичный и зачастую удручающий результат. Нейросеть может смешать два образа в один, создав нечто гротескное. Секрет кроется в правильном описании динамики и использовании токенов, которые намекают на последовательность.

Один из рабочих подходов – это использование концепции «временной шкалы» или «последовательности кадров» прямо в текстовом запросе. Например, можно попробовать такую конструкцию:

cinematic sequence of a 25-year-old woman with [features] undergoing an age regression, frame by frame she becomes younger, morphing smoothly into a 5-year-old version of herself, maintaining core facial features, magical shimmering aura around her

Что здесь важно? Во-первых, слова `sequence` и `frame by frame` прямо указывают на процесс. Во-вторых, `morphing smoothly` задаёт характер перехода – плавный, а не резкий. Ну и, наконец, `maintaining core facial features` – прямое указание для ИИ, которое не стоит игнорировать. Это своего рода попытка «взломать» логику модели, заставив её думать о процессе, а не о статичном результате.

Ключевые токены и их вес

Разные модели по-разному реагируют на команды. Где-то лучше сработает age regression, а где-то – более простое и понятное getting younger. Отдельно стоит упомянуть о весе токенов. Эта функция есть во многих интерфейсах, и она творит чудеса. Если вы видите, что ИИ слишком сильно «тяготеет» к образу ребёнка, игнорируя взрослую внешность, можно усилить вес начального состояния. Выглядеть это может так:

(a 25-year-old woman:1.3) magically transforms into (a 5-year-old girl:1.0)

Таким образом мы говорим модели, что образ взрослой женщины немного важнее, он – отправная точка, от которой стоит отталкиваться.

К слову, не стоит перегружать промт избыточными деталями на этапе трансформации. Чем сложнее запрос, тем больше вероятность, что нейросеть «запутается» и выдаст артефакты. Львиная доля успеха зависит от чистоты и лаконичности команды, описывающей само превращение. Иногда короткий промт работает куда лучше, чем нагромождение из десятка прилагательных:

young woman de-aging into a little girl, time-lapse effect, hyperrealistic

Эксперименты с формулировками – это основа основ.

А что насчёт видео?

Буквально пару лет назад генерация видео из текста казалась фантастикой, но сейчас такие инструменты, как Sora, Pika или Runway, позволяют создавать короткие и довольно впечатляющие ролики. Для них принципы построения промта в целом схожи, но есть свои нюансы. Видеомодели лучше понимают глаголы движения и процессы, происходящие во времени. Поэтому акцент нужно делать именно на них.

Здесь на первый план выходит антураж и действие. Одно дело – статичная трансформация на белом фоне, и совсем другое – живая сцена. Попробуйте представить это как фрагмент из фильма и опишите его:

cinematic wide shot, a beautiful 25-year-old woman is standing in a blooming spring garden, a soft golden light envelops her, she giggles as she visibly and smoothly de-ages into a 5-year-old girl, her clothes magically resizing to fit her. Ultra realistic, 8k, high frame rate, dreamy atmosphere

Такой подробный сценарий даёт ИИ гораздо больше контекста для создания правдоподобной и эмоциональной сцены. Он понимает не только что делать, но и как, в какой атмосфере и с каким настроением.

Подводные камни и тонкая настройка

Разумеется, путь к идеальному результату тернист. Одна из главных проблем – эффект «зловещей долины», когда лицо на промежуточных стадиях трансформации выглядит неестественно или даже пугающе. Бороться с этим можно несколькими способами. Во-первых, стоит попробовать разные модели и сэмплеры. Некоторые из них лучше справляются с органическими изменениями. Во-вторых, не стоит пренебрегать негативными промтами. Фразы вроде этих помогают отсечь львиную долю неудачных генераций:

ugly, deformed, disfigured, creepy, uncanny valley, artifacts

К тому же, для по-настоящему скрупулёзной работы стоит использовать инструменты вроде ControlNet или IP-Adapter, которые позволяют закрепить черты лица по референсному изображению. Это уже более сложный уровень, который требует определённых технических знаний, но результат того стоит. Подавая на вход фотографию конкретного человека, вы многократно повышаете шансы на то, что ИИ сохранит его идентичность в процессе всех махинаций с возрастом.

Ну и, конечно же, не стоит забывать про итерации. Получить шедевр с первого раза – большая редкость. Нужно быть готовым к десяткам, а то и сотням попыток, меняя отдельные слова, их вес, пробуя разные сиды (seed) для воспроизводимости результата и играя с параметрами генерации. Этот процесс не сложный, но довольно кропотливый.

Удивительно, но порой самые неожиданные и креативные результаты получаются из-за случайных ошибок или нетривиальных формулировок. Поэтому не бойтесь отступать от готовых рецептов и добавлять в промты что-то своё. Перевоплощение завершено. Удачи в ваших творческих экспериментах.