Промт для оживления фото в нейросети (с примерами готовых промтов)

Статичные снимки, хранящиеся в цифровых архивах или старых альбомах, всегда вызывали у человека смешанное чувство ностальгии и желания заглянуть за рамку застывшего мгновения. Ведь так хочется увидеть, как на самом деле развевались волосы на ветру, как улыбался близкий человек или как бежали облака над тем самым памятным пейзажем. Ещё пару лет назад это казалось магией из вселенной Гарри Поттера, доступной лишь мастерам сложного видеомонтажа, но сегодня технологии шагнули далеко вперёд, предлагая инструменты, способные превратить обычный JPEG в полноценное видео. Однако результат не всегда оправдывает ожидания: вместо плавного кино получается пугающий морфинг или хаотичное дрожание пикселей. А всё дело в том, что нейросеть нужно не просто попросить, а грамотно направить.

Как это работает?

Сам процесс «оживления» (image-to-video) кардинально отличается от генерации картинки с нуля. Здесь у искусственного интеллекта уже есть исходный материал — референс, за пределы которого выходить рискованно. Задача алгоритма — предсказать, куда сместятся пикселей в следующую долю секунды. Это довольно сложный процесс. Ведь нейросети нужно дорисовать то, что было скрыто за объектом, или придумать физику движения ткани. Обыватель часто думает, что достаточно загрузить фото и нажать кнопку «Generate», но на деле без текстовой подсказки — промта — система начинает галлюцинировать. Она не понимает, дует ли ветер, течёт ли вода или человек просто замер. Именно текстовое описание задает вектор движения, превращая хаос в упорядоченную анимацию.

Анатомия правильного запроса

С чего начинается составление промта? С анализа самого изображения. Если на фото изображён портрет, нет смысла писать про «epical battles» (эпические битвы), даже если очень хочется экшена. Структура эффективного запроса обычно строится по схеме: объект + действие + характер движения + атмосферные детали. Львиная доля успеха зависит от того, насколько точно вы опишете микро-движения. Глаголы здесь играют решающую роль. Вместо абстрактного «moving» (движение) стоит использовать конкретику: «waving» (развевается), «blinking» (моргает), «flowing» (течет).

Нюанс кроется и в прилагательных. Слова вроде «gentle» (нежный), «slow» (медленный) или «subtle» (тонкий, едва заметный) — это настоящий спасательный круг для тех, кто хочет избежать эффекта «желе», когда лицо или здание начинают плавиться. А вот агрессивные слова типа «fast» (быстро) или «running» (бег) при работе со статикой часто приводят к артефактам, если исходная поза объекта не предполагает такой динамики.

Оживляем портреты

Самый популярный сценарий — это, безусловно, анимация лиц. Здесь требуется ювелирная точность. Лишнее движение превратит улыбку в гримасу Джокера. Для спокойного, естественного портрета отлично подойдет связка, описывающая мимику и взгляд. Попробуйте использовать конструкцию:

subject looking at camera, subtle blinking, gentle smile, natural movement

Это база, которая работает почти везде — от Runway Gen-2 до Pika Labs.

Если же хочется добавить немного жизни вокруг персонажа, но не трогать лицо, на помощь приходят погодные условия. Допустим, у вас есть фото девушки на улице. Промт «wind blowing hair, hair floating in the wind, soft lighting changes» заставит волосы шевелиться, а свет — играть на лице, при этом черты останутся узнаваемыми. К слову, довольно часто новички забывают про глаза. А ведь именно «мёртвый» немигающий взгляд выдает дипфейк. Добавление eyes blinking slowly творит чудеса, моментально повышая реализм.

Есть и более сложные эмоции. Скажем, удивление или смех. Тут стоит быть аккуратнее. Фраза «laughing out loud» может исказить рот до неузнаваемости. Лучше использовать:

slight giggle, head tilting back slightly

Это лёгкий смешок, голова слегка откидывается назад. Это создаст ощущение живой реакции, но не поломает геометрию лица.

Работа с пейзажами и природой

Здесь простор для творчества куда шире. Природа прощает ошибки геометрии легче, чем человеческое лицо. Вода, огонь, дым и облака — это стихии, которые нейросети анимируют просто превосходно. Для морского пейзажа классикой жанра станет промт:

ocean waves crashing, water flowing, sea foam moving

Такой запрос заставит волны накатывать на берег. Если же на фото спокойное озеро, то лучше написать «calm water ripples, reflection shimmering» (спокойная рябь на воде, мерцающее отражение).

Нельзя не упомянуть и небо. Статичные облака убивают динамику. Запрос clouds moving fast across the sky, timelapse style превратит скучный закат в захватывающее таймлапс-видео. Это выглядит впечатляюще, особенно если на переднем плане есть неподвижные объекты вроде гор или зданий.

А что насчет городской среды? Тут свои законы. Машины должны ехать, огни — гореть. Промт «traffic moving on the street, city lights flickering, neon signs glowing» оживит ночной мегаполис. Главное — следить, чтобы дома не начали танцевать вместе с автомобилями. Для этого иногда добавляют негативный промт (если инструмент позволяет) или используют параметры, ограничивающие силу движения (motion bucket).

Имитация операторской работы

Движение внутри кадра — это лишь половина дела. Вторая половина — это движение самой виртуальной камеры. Статичный кадр, даже с движущимися объектами, часто выглядит как GIF-анимация из нулевых. А вот пролёт камеры добавляет кинематографичности. Нейросети отлично понимают терминологию кинооператоров.

Один из самых эффектных приемов — наезд камеры. Добавьте в конец вашего промта фразу slow camera zoom in. Это моментально сфокусирует внимание зрителя на центре композиции. Обратный эффект — «camera zoom out» — хорош для того, чтобы показать масштаб, например, если вы оживляете фото одинокого путника в горах.

Панорамирование (pan) позволяет «осмотреться». Фразы «camera pan right» или «camera pan left» заставят кадр смещаться в сторону. Это полезно для широких пейзажей. Но тут есть подводные камни: нейросети придется дорисовывать то, чего нет на исходном фото. И иногда она дорисовывает откровенную нелепицу. Поэтому с панорамированием стоит быть сдержаннее. Еще один интересный прием — handheld camera shake. Он добавляет лёгкое дрожание, имитируя съёмку с рук. Это придаёт документальный стиль и отлично подходит для репортажных снимков или стилизации под домашнее видео.

Технические параметры

Слова — это важно, но цифры тоже имеют значение. Во многих сервисах (например, Runway или Stable Video Diffusion) есть ползунок, отвечающий за «силу» изменений. Обычно он называется Motion Bucket или Motion Scale. Если выкрутить его на максимум, картинка буквально «потечет»: люди начнут плавиться, а деревья — улетать в небо. Для портретов значение лучше держать низким (в районе 20-40 из 127, если говорить о параметрах SVD). Для воды и облаков можно поднять повыше.

Также существует параметр Seed. Это, по сути, зерно случайности. Если результат с идеальным промтом вас не устраивает — просто смените Seed. Иногда одна и та же фраза с другим цифровым значением выдает кардинально иной результат. Это сродни лотерее, но в ней можно выиграть настоящий шедевр.

Распространенные ошибки

Почему иногда ничего не получается? Чаще всего проблема в конфликте между изображением и текстом. Если на фото человек сидит, а вы пишете «running», нейросеть попытается поднять его на ноги, превращая колени в суставы кузнечика. Зрелище удручающее. Всегда отталкивайтесь от исходной позы.

Вторая ошибка — перегруженный промт. Не стоит писать сочинение на три страницы. Нейросеть «запутается» в приоритетах. Выделите главное: кто, что делает и как снято. Фразы вроде «высокое качество, 4к, награда на фотовыставке» при генерации видео из картинки играют меньшую роль, чем при генерации с нуля, так как качество уже задано исходником.

Примеры готовых решений

Чтобы не быть голословным, разложим по полочкам несколько универсальных сценариев. Допустим, вы хотите оживить уютное фото с чашкой кофе у окна. Промт будет таким:

steam rising from the coffee cup, subtle heat haze, rain drops falling on window glass, cozy atmosphere

Здесь мы задаем движение пару и дождю, создавая настроение.

Для киберпанк-арта или ночного города подойдет:

neon lights flickering, smoke rising from vents, reflections on wet asphalt, cinematic lighting

Мерцание света — это самый простой способ добавить жизни без риска исказить геометрию зданий.

Если же цель — оживить старое чёрно-белое фото дедушки в военной форме, действовать нужно крайне деликатно:

subtle breathing, eyes blinking, film grain texture moving, vintage movie style

Добавление шума плёнки (film grain) поможет скрыть мелкие огрехи генерации и усилит эффект хроники.

Фантастические сюжеты и магия

Нейросети обожают спецэффекты. Если у вас есть арт с магом или космическим кораблем, тут можно дать волю фантазии. Для магии используйте: «energy particles glowing, magical aura flowing around hands, sparks flying». Частицы (particles) анимируются великолепно и всегда выглядят дорого и эффектно.

Космос тоже благодатная тема. Промт stars twinkling, nebula moving slowly, spaceship engines glowing blue превратит статичный арт в заставку для научно-фантастического фильма. Главное, чтобы звёзды не начали двигаться хаотично, как мухи. Для этого можно добавить уточнение «slow rotation» (медленное вращение).

Стоит ли платить?

Рынок инструментов сейчас перенасыщен. Есть Runway Gen-2 и Gen-3, Pika, Luma Dream Machine, Kling и множество решений на базе Stable Video Diffusion. Безусловно, топовые модели требуют платной подписки, и это может бить по бюджету. Однако многие сервисы дают бесплатные кредиты ежедневно или при регистрации. Для экспериментов этого вполне достаточно. Тем более, что локальные нейросети (если у вас мощная видеокарта) позволяют делать это бесплатно, хоть и требуют скрупулезной настройки.

Коммерческие решения, как правило, дают более стабильный результат и лучше понимают промты. Бесплатные или open-source модели часто требуют «танцев с бубном» и перебора десятков вариантов Seed. Но если вы не гонитесь за голливудским качеством для Netflix, а просто хотите порадовать подписчиков в соцсетях, то базовых тарифов или бесплатных генераций хватит с головой.

Гастрономическая анимация

Отдельная ниша — это фуд-фотография. Ожившая еда вызывает аппетит куда сильнее. Представьте бургер, с которого стекает сок, или пиццу, от которой поднимается пар. Промт для такого кадра:

cheese stretching, steam rising, sauce dripping slowly, delicious close-up

Использование макро-съемки (close-up) здесь критически важно, чтобы нейросеть сосредоточилась на текстурах.

А если это бокал вина? «wine swirling in glass, liquid splashing, light refraction in glass». Главное — не переборщить с интенсивностью, иначе вино выплеснется прямо в объектив, нарушая законы физики.

Животные в кадре

С котиками и собачками всё не так просто. Шерсть — сложная фактура для анимации. Часто она начинает «плыть». Чтобы этого избежать, фокусируйтесь на мелких движениях. Промт:

cat ears twitching, whiskers moving, soft breathing, fluffy fur texture

Не заставляйте кота бегать, если он лежит. Пусть лучше он дернет ухом или зевнет («yawning»). Это выглядит мило и естественно. Да и самим зверькам (пусть и виртуальным) комфортнее оставаться в естественных позах.

Поиск своего стиля

В конечном счёте, идеальный промт — это тот, который вы вывели опытным путем. Нет универсальной таблетки. Одно и то же описание в Pika даст мультяшный эффект, а в Runway — реалистичный. Стоит завести отдельный файл, куда вы будете записывать удачные связки слов. Это сэкономит кучу времени в будущем.

Экспериментируйте с порядком слов. Иногда перестановка слагаемых меняет сумму результата. Выносите самое важное в начало предложения. Если вам важно моргание — пишите об этом первым словом. Если важен пролёт камеры — начинайте с него. Нейросеть уделяет больше внимания первым токенам.

Не бойтесь комбинировать стили. Попробуйте смешать «documentary footage» (документальная съемка) и «dreamy atmosphere» (атмосфера сна). Результат может оказаться неожиданно интересным и самобытным. Ведь именно на стыке несочетаемого рождаются новые визуальные жанры.

Это увлекательный процесс, похожий на проявку плёнки в красной комнате, только вместо химикатов у вас слова. Попробуйте оживить старое семейное фото уже сегодня вечером — эмоции близких от увиденного точно станут лучшей наградой за труды.