Что такое Runway Act Two и как эта функция улучшает генерацию

Ещё пару лет назад сама мысль о том, что нейросеть сможет снять за тебя видеоролик по одному лишь текстовому описанию, казалась фантастикой из разряда летающих автомобилей. Генеративные модели худо-бедно справлялись с картинками, но стоило попросить движущееся изображение — результат вызывал скорее смех, чем восхищение. Персонажи теряли пальцы, фон плыл кашей, а о какой-либо режиссёрской задумке и речи не шло. Но индустрия не стоит на месте, и компания Runway, которая давно тяготеет к стыку искусства и машинного обучения, в конце 2024 года выкатила обновление, перевернувшее представление о возможностях ИИ-видео. Называется оно Act Two, и разобраться в его механике стоит каждому, кто хоть немного интересуется будущим визуального контента.

Runway и путь к «второму акту»

Сама платформа Runway появилась не вчера. Компанию основали в 2018 году выходцы из нью-йоркского ITP-программы, и поначалу она позиционировала себя как набор творческих инструментов на базе машинного обучения. Со временем вектор сместился: команда сконцентрировалась на генерации видео. Первое поколение модели Gen-1 умело стилизовать уже готовые ролики, накладывая на них визуальные фильтры. Довольно грубо, но для 2023 года это выглядело впечатляюще. Затем пришла Gen-2, которая научилась создавать короткие клипы «из ничего» — по текстовому промту. И вот тут-то всплыла главная проблема: персонажи в кадре вели себя непредсказуемо. Лицо могло измениться между двумя секундами ролика, а жесты рук напоминали движения сломанной марионетки.

Дело в том, что ранние модели плохо удерживали так называемую «консистентность персонажа» — способность сохранять внешний вид героя на протяжении всего видео. Act Two как раз и стал ответом на эту головную боль. Ведь без стабильного персонажа ни о каком сторителлинге думать не приходится.

Что скрывается за названием?

Act Two — не отдельная нейросеть и не новая модель с нуля. Это функциональный модуль внутри экосистемы Gen-3 Alpha, флагманской генеративной модели Runway. Вся суть в том, что пользователь теперь может загрузить референсное изображение конкретного персонажа (фотографию человека, иллюстрацию героя мультфильма, даже скетч на салфетке) и на его основе сгенерировать видео, где этот персонаж будет двигаться, говорить, менять ракурс, но при этом оставаться собой. Лицо не «поплывёт» к третьей секунде. Одежда не превратится в размытое пятно. Причёска не сменится с каре на хвост без видимой причины.

Нужно ли для этого обучать отдельную модель на сотнях фотографий? Вовсе нет. Хватает одного-двух изображений. Нейросеть «считывает» черты лица, пропорции тела, характерные детали гардероба и переносит всё это в движущийся кадр. К слову, работает это не только с людьми — антропоморфные персонажи, мультяшные герои и даже стилизованные маскоты тоже поддерживаются.

Как устроена механика изнутри?

Технической документации Runway раскрывает немного — коммерческая тайна всё-таки. Однако по косвенным признакам и патентным заявкам общую логику восстановить можно. В основе лежит диффузионная архитектура, похожая на ту, что используют Stable Diffusion и DALL-E, но адаптированная под временну́ю ось. Модель работает не с отдельными кадрами, а с латентным представлением всей видеопоследовательности целиком. Это позволяет ей «помнить», как персонаж выглядел в начале ролика, и переносить эту информацию до самого конца.

Отдельно стоит упомянуть механизм «identity embedding» — вложения идентичности. Когда пользователь загружает референсный снимок, сеть кодирует его в компактный вектор, который затем «вшивается» в процесс генерации на каждом шаге диффузии. Грубая аналогия: если раньше нейросеть рисовала каждый кадр «с чистого листа», то теперь у неё перед глазами постоянно лежит фотография-образец. А сам текстовый промт определяет действие, окружение и настроение сцены. Два потока информации — кто и что делает — сливаются воедино, и на выходе получается когерентный ролик.

Стоит ли верить в чудеса?

Скептики, разумеется, тут же нашли подводные камни. И надо признать: не все претензии беспочвенны. Во-первых, длительность генерируемых роликов пока ограничена — в среднем от четырёх до десяти секунд. Для полноценного рекламного ролика этого мало, хотя для сторис в социальных сетях или для раскадровки — вполне достаточно. Во-вторых, сложные сцены с несколькими персонажами по-прежнему даются нейросети тяжело. Два человека в кадре — ещё куда ни шло, а вот толпу модель рисовать пока не научилась без артефактов.

Но есть и обратная сторона медали. Качество одиночных сцен выросло настолько, что некоторые ролики с первого взгляда сложно отличить от постановочных съёмок. Движения стали плавными, мимика — живой, освещение — консистентным. Да и сам факт того, что для создания добротного десятисекундного клипа теперь не нужна съёмочная площадка, свет, звук и команда из пятнадцати человек, — это ведь грандиозный сдвиг. Тем более что Runway позволяет итерировать: не понравился результат — меняй промт, подкручивай параметры, генерируй заново. Каждая попытка занимает от тридцати секунд до двух минут (зависит от нагрузки на серверы).

Что изменилось для практиков?

Львиная доля интереса к Act Two пришла со стороны трёх категорий пользователей. Первая — инди-кинематографисты и видеографы, которым функция открыла возможность быстро визуализировать раскадровку, прежде чем тратить деньги на реальные съёмки. Раньше для этого нанимали художника, а теперь достаточно текстового описания и фото актёра. Вторая группа — маркетологи и бренд-менеджеры, которым нужен контент «здесь и сейчас», без долгого продакшн-цикла. Кстати, именно в маркетинге Act Two нашёл пока самое массовое применение: короткие рекламные вставки с виртуальным амбассадором бренда не сильно ударят по кошельку, зато приковывают внимание аудитории.

Ну и, наконец, третья категория — энтузиасты и экспериментаторы, которые грезят о собственных анимационных проектах, но не имеют навыков классической анимации. Для обывателя, далёкого от After Effects и Maya, Act Two — настоящий спасательный круг. Загрузил рисунок своего персонажа, написал сцену словами, нажал кнопку. Через минуту — готовый ролик с движением. Конечно, до уровня пиксаровской анимации далеко, однако для YouTube-канала или игрового проекта на стадии прототипа — более чем достаточно.

Чем Act Two отличается от конкурентов?

На рынке генеративного видео сейчас довольно тесно. Pika Labs, Kling AI, Sora от OpenAI — каждый сервис тянет одеяло на себя. Но есть нюанс, который выделяет Act Two на общем фоне. Большинство конкурентов работают по принципу «текст в видео» без привязки к конкретному персонажу. То есть ты можешь описать «мужчина в синем пиджаке идёт по улице», и нейросеть покажет тебе какого-то мужчину в чём-то синем. А в следующем ролике — уже совершенно другого. Построить связный сериал или хотя бы серию рекламных роликов с одним и тем же героем на таких инструментах практически невозможно.

Act Two эту проблему решает в лоб. Персонаж «прибит гвоздями» к референсу, и даже если ты сгенерируешь десять роликов с разными сценами, герой останется узнаваемым. Это же правило касается стилистики: если загрузить персонажа в аниме-стиле, видео будет выдержано в том же ключе. На самом деле для индустрии это огромный шаг, потому что впервые появилась возможность строить нарратив на нескольких эпизодах без потери визуальной идентичности.

Подводные камни и ограничения

Не стоит забывать о щепетильных вопросах этики и авторского права. Runway заявляет, что модель обучена на лицензированных материалах, но проверить это на сто процентов невозможно. К тому же возникает очевидный риск: если загрузить фотографию реального человека без его согласия, нейросеть послушно создаст видео с его лицом. Дипфейк-потенциал — вот та ложка дёгтя, которую невозможно игнорировать.

Компания пытается бороться с этим через систему модерации и водяные знаки на генерируемом контенте. Но честно? Технические барьеры пока довольно легко обходятся. Индустрия в целом только нащупывает законодательные рамки для подобных инструментов, и Runway здесь не исключение. Впрочем, сам по себе инструмент не виноват — как и молоток, всё зависит от рук, которые его держат.

Ещё один нюанс — стоимость. Бесплатный тарифный план Runway ограничен до смешного: буквально 125 кредитов, которых хватает на несколько коротких роликов. Серьёзная работа требует подписки Standard за 12 долларов в месяц или Pro за 28 долларов. А если речь о коммерческом использовании с большими объёмами, кошелёк станет легче на 76 долларов ежемесячно (тариф Unlimited). Для студии это не критично, а вот для одиночки-фрилансера — серьёзное вложение.

Как добиться хорошего результата?

С любым генеративным инструментом действует железный постулат: качество на выходе напрямую зависит от качества на входе. Для Act Two это означает три вещи. Прежде всего — референсное изображение персонажа стоит подбирать максимально чёткое, с хорошим освещением и нейтральным фоном. Размытая фотография с вечеринки, снятая на камеру 2015 года, — плохой старт. Нейросеть «считает» с неё шумы и перенесёт их в видео.

Далее следует текстовый промт. И тут действует парадоксальное правило: чем конкретнее описание, тем лучше результат, но перегружать деталями тоже не стоит. «Женщина в красном платье стоит на балконе, ветер треплет волосы, на заднем плане — закат над морем» — это хороший промт. А вот «женщина в красном шёлковом платье с V-образным вырезом и кружевными рукавами стоит на мраморном балконе в стиле ар-деко, левой рукой касается перил, правой поправляет серёжку, ветер дует справа налево, волосы каштановые до плеч» — это уже перебор. Модель запутается в приоритетах. Ну, а третий момент — терпение. Первый результат редко бывает идеальным. Иногда нужно пять-шесть итераций, чтобы поймать тот самый кадр. Ведь генерация — процесс вероятностный, и каждый запуск даёт чуть иной результат.

Что дальше?

Runway уже анонсировала планы по увеличению длительности роликов и добавлению мультиперсонажных сцен с сохранением идентичности каждого героя. Если верить дорожной карте, к середине 2025 года Act Two получит поддержку голосовой синхронизации — то есть персонаж не просто будет двигать губами, а делать это в такт с загруженной аудиодорожкой. Для видеоподкастеров и авторов обучающего контента это может стать по-настоящему прорывной возможностью.

Технология генеративного видео сейчас напоминает интернет образца 1998 года: всё медленное, неуклюжее, но потенциал виден невооружённым глазом. Act Two — не финальная точка, а скорее увертюра ко второму акту целой индустрии. Тем, кто хочет быть на гребне волны, стоит попробовать инструмент уже сейчас — пока конкуренты только раскачиваются. Удачи в экспериментах, и пусть каждый сгенерированный ролик окажется чуть лучше предыдущего.