Чем удивляет новая нейросеть Runway 3 создателей контента

Ещё пару лет назад генерация видео при помощи искусственного интеллекта казалась чем-то из области фантастики — короткие дёрганые ролики с размытыми лицами и «плавающей» физикой вызывали скорее смех, чем восхищение. Львиная доля авторов контента относилась к подобным инструментам скептически, и небезосновательно: качество картинки оставляло желать лучшего, а о сколько-нибудь связном повествовании в кадре и речи не шло. Но технологии в сфере генеративных моделей движутся с такой скоростью, что вчерашние ограничения сегодня выглядят курьёзом. А потому стоит разобраться, чем же третье поколение Runway так взбудоражило креативное сообщество и почему даже бывалые видеографы заговорили об этой модели всерьёз.

Что изменилось по сравнению с предыдущими версиями?

Прежде всего бросается в глаза качество самого изображения. Если вторая версия Runway генерировала ролики, где текстуры «плыли» уже на третьей секунде, то в третьем поколении картинка держится стабильно на протяжении десяти-двенадцати секунд непрерывного видеофрагмента. Вроде бы мелочь — ну подумаешь, несколько секунд. Однако для монтажёра, собирающего динамичный рекламный ролик или визуальную подложку к подкасту, даже пять «чистых» секунд без артефактов — это уже серьёзный рабочий материал. К тому же разрешение выросло до полноценного 1080p, а в некоторых режимах доступен и формат 4K (правда, с оговорками по длительности). Дело в том, что разработчики полностью переработали архитектуру диффузионной модели, заменив её на гибридный подход с элементами авторегрессии. Это позволяет нейросети «помнить», что происходило в начале фрагмента, и выстраивать визуальную логику до самого конца.

Отдельно стоит упомянуть работу с движением камеры. Раньше любая попытка задать панораму или наезд заканчивалась хаосом — объекты деформировались, горизонт «гулял». Сейчас же модель довольно уверенно имитирует операторские приёмы: плавный трекинг вдоль объекта, вертикальный тилт, даже нечто похожее на дрон-шот с высоты. Не идеально, нет. Но прогресс за каких-то восемь месяцев — грандиозный.

Промпт-контроль и точность интерпретации

Задача не из лёгких. Ведь сколько бы ни совершенствовалась визуальная часть, толку от неё мало, если модель не понимает, чего именно хочет автор. И вот тут Runway Gen-3 действительно удивляет. Текстовый промпт теперь воспринимается не как набор ключевых слов, а скорее как режиссёрская ремарка: можно описать настроение сцены, указать время суток, тип освещения (например, «мягкий контровой свет золотого часа»), характер движения персонажа и даже эмоцию на лице. Нужно отметить, что раньше подобная детализация промпта приводила к непредсказуемым результатам — модель словно «захлёбывалась» от обилия инструкций. Сейчас же ситуация изменилась.

Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸

Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.

Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL

Многие считают, что нейросетям достаточно пары слов — мол, «красивый закат на море» и дело сделано. Но на самом деле глубина промпта напрямую влияет на то, насколько точный и атмосферный фрагмент получится на выходе. Опытные пользователи уже делятся в сообществах развёрнутыми шаблонами промптов на сорок-пятьдесят слов, и результат порой приковывает внимание не хуже профессиональной съёмки. Впрочем, и тут есть свои подводные камни: слишком абстрактные формулировки вроде «нечто грандиозное и вдохновляющее» модель трактует по-своему, иногда с довольно неожиданным результатом.

Стоит ли овчинка выделки с финансовой точки зрения?

Вопрос цены всегда щепетильный. Буквально пару лет назад стоковое видео на площадках вроде Shutterstock или Pond5 обходилось в среднем от пяти до пятидесяти долларов за один клип. Для небольшого YouTube-канала или начинающего SMM-специалиста — ощутимо бьёт по бюджету, особенно когда для одного проекта нужно десять-пятнадцать подложек разного характера. Runway предлагает подписку, стартовая версия которой стоит около двенадцати долларов в месяц, а расширенная — порядка тридцати пяти. За эти деньги автор получает возможность генерировать десятки и сотни видеофрагментов, подстраивая каждый под конкретную задачу.

Не стоит, правда, думать, что подписка решает все проблемы. Ведь генерация — процесс итерационный: не всегда первый результат устраивает, и приходится «перекатывать» промпт три-четыре раза, каждый раз расходуя кредиты. Да и серьёзные коммерческие проекты с высокими требованиями к качеству всё ещё нуждаются в ручной доработке — цветокоррекции, ретайминге, компоузинге. Тем не менее экономия по сравнению со стоковым видео или, тем более, организацией полноценной съёмки — внушительная. А для одиночного контент-мейкера это и вовсе настоящий спасательный круг.

Кинематографичность и работа с атмосферой

Шестнадцать кадров. Именно столько генерировала самая первая версия Runway — примерно секунда дёрганой «анимации». Сейчас же модель способна создавать фрагменты, в которых угадывается настоящий кинематографический язык. Особый интерес вызывает то, как Gen-3 работает с глубиной резкости и боке: передний план остаётся чётким, задний — мягко размывается, совсем как при съёмке на объектив с открытой диафрагмой f/1.4. Это не просто техническая деталь — именно такие нюансы отличают любительское видео от «дорогого» визуала.

К слову, модель научилась неплохо справляться с отражениями в воде и стекле, чем раньше грешили практически все генеративные системы. Зеркальные поверхности всегда были ложкой дёгтя для нейросетей — отражения жили своей жизнью, не совпадая с объектами по форме и динамике. В третьем поколении эта проблема если не решена полностью, то сведена к минимуму. И всё же стоит отметить: сложные сцены с множественными отражениями (например, городская улица после дождя) по-прежнему даются модели с трудом.

Что насчёт генерации людей?

Вот тут ситуация неоднозначная. С одной стороны, прогресс налицо — в прямом и переносном смысле. Лица стали детализированнее, мимика — живее. Модель научилась генерировать правдоподобную жестикуляцию и даже едва заметные движения бровей или подрагивание уголков губ. Раньше лица «сползали» уже ко второй секунде ролика, превращаясь в нечто из ночного кошмара. Сейчас — держатся уверенно, хотя при внимательном рассмотрении что-то всё-таки выдаёт искусственное происхождение. Обычно это руки. Ведь именно кисти рук остаются ахиллесовой пятой генеративных видеомоделей: пальцы множатся, срастаются или исчезают в самый неподходящий момент.

Но для задач, где человек появляется на заднем плане, в силуэте или крупным планом лишь на пару секунд, возможностей Gen-3 хватает с лихвой. Рекламные тизеры, интро для YouTube-каналов, визуальные метафоры в корпоративных презентациях — во всех этих форматах сгенерированный «человек» выглядит вполне убедительно. Тем более что зритель редко вглядывается в каждый кадр: общее впечатление формируется за первые полторы секунды, и тут Runway творит чудеса.

Интеграция в рабочий процесс

Один из самых приятных сюрпризов — API. Разработчики предоставили довольно гибкий программный интерфейс, позволяющий встроить генерацию видео прямо в пайплайн продакшена. Для крупных студий и агентств это — колоссальная экономия времени: вместо того чтобы вручную заходить на сайт, вбивать промпт и скачивать результат, весь процесс автоматизируется через скрипты. К тому же появилась возможность пакетной генерации, когда один промпт порождает сразу несколько вариаций с разными параметрами — углом камеры, цветовой палитрой, скоростью движения.

Кстати, модель неплохо дружит с другими инструментами экосистемы Runway. Например, сгенерированное видео можно тут же отправить на апскейл, наложить эффект стабилизации или пропустить через модуль удаления фона — всё в рамках одного интерфейса. Для обывателя, привыкшего жонглировать пятью-шестью разными приложениями, такая монолитная среда — настоящий кладезь удобства. Да и кривая обучения оказалась довольно пологой: освоиться с базовыми функциями можно за вечер.

Этика и авторские права

Нельзя не упомянуть тему, которая будоражит креативное сообщество ничуть не меньше, чем сами технологические новшества. На каких материалах обучалась модель? Не всплывут ли юридические проблемы у тех, кто использует сгенерированное видео в коммерческих проектах? Runway заявляет, что Gen-3 обучалась на лицензированных и собственных датасетах, однако скрупулёзной независимой проверки пока не проводилось. Это вызывает определённое беспокойство, тем более что прецеденты с исками к генеративным платформам уже имели место — вспомнить хотя бы громкие разбирательства вокруг Stability AI в 2023 году.

С другой стороны, для создателей контента риск пока остаётся минимальным: лицензионное соглашение Runway разрешает коммерческое использование результатов генерации, и до сих пор ни одного публичного конфликта на этой почве зафиксировано не было. Но стоит держать руку на пульсе — законодательство в сфере ИИ меняется стремительно, и то, что допустимо сегодня, завтра может потребовать дополнительных согласований.

Где модель пока буксует?

Было бы нечестно рисовать исключительно радужную картину. У Gen-3 хватает ограничений, о которых не стоит забывать. Во-первых, длительность одного генерируемого фрагмента — по-прежнему до десяти-двенадцати секунд. Для полноценного шота этого мало, а склейка нескольких сгенерированных кусков далеко не всегда выглядит гладко: освещение и цветовая температура могут «прыгать» между фрагментами. Во-вторых, с текстом в кадре модель справляется неважно — вывески, надписи на футболках и номера автомобилей превращаются в абракадабру. Ну и, наконец, аудиодорожку генерировать модель не умеет вовсе — только «немое» видео.

Кроме того, скорость генерации оставляет желать лучшего. Один десятисекундный фрагмент в разрешении 1080p может рендериться от сорока секунд до двух минут, в зависимости от загруженности серверов. Для оперативной работы — например, подготовки контента под «горячий» инфоповод — такое время ожидания бывает критичным. Впрочем, разработчики обещают ускорить процесс в ближайших обновлениях, и опыт предыдущих версий показывает, что обещания они обычно выполняют.

Кому стоит присмотреться к Runway Gen-3 прямо сейчас?

Если разложить всё по полочкам, наибольшую выгоду от нового поколения получают несколько категорий авторов. Первая — SMM-специалисты и владельцы небольших бизнесов, которым постоянно нужен свежий визуальный контент для социальных сетей, но бюджет на профессиональную видеосъёмку попросту отсутствует. Следующая категория — YouTube-блогеры и подкастеры, использующие видеоподложки для оформления выпусков. Отдельная история — дизайнеры и моушн-художники, для которых Runway стал чем-то вроде продвинутого скетчбука: можно быстро «набросать» визуальную идею, показать клиенту концепт и уже потом, получив одобрение, довести до ума вручную или заказать полноценную съёмку. Да и для кинематографистов-независимиков инструмент оказался довольно полезным — вставки с дрон-шотами, сгенерированные фоны для хромакея, атмосферные переходы между сценами.

Runway Gen-3 — не волшебная палочка и не замена целой съёмочной группе. Но для создателей контента, умеющих грамотно формулировать задачу и не боящихся экспериментов, этот инструмент станет серьёзным подспорьем, способным сэкономить часы работы и тысячи рублей из бюджета. А темпы развития платформы намекают, что самое интересное — ещё впереди. Удачи в освоении новых горизонтов видеогенерации!

Что изменилось по сравнению с предыдущими версиями?

Промпт-контроль и точность интерпретации

Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸

Стоит ли овчинка выделки с финансовой точки зрения?

Кинематографичность и работа с атмосферой

Что насчёт генерации людей?

Интеграция в рабочий процесс

Этика и авторские права

Где модель пока буксует?

Кому стоит присмотреться к Runway Gen-3 прямо сейчас?

Читайте по теме

Статьи по теме

Лучшая нейросеть для создания видео: разбор возможностей Runway

Преимущества работы в нейросети Runway ML онлайн прямо в браузере

Ожидаемые функции и дата выхода нейросети Runway 4

Как скачать бесплатный клиент нейросети Runway для работы