Что такое Higgsfield Soul и как работает эта функция

Ещё пару лет назад создание реалистичного видеоаватара требовало целой студии — камер, осветителей, специалистов по захвату движения и бюджета, от которого у обывателя глаза полезли бы на лоб. Сегодня же достаточно смартфона и пары минут свободного времени. Генеративные нейросети ворвались в повседневность стремительно, и львиная доля пользователей до сих пор не успела разобраться, что именно умеет каждый новый инструмент. Одним из таких инструментов, приковывающих внимание индустрии, стал Higgsfield AI — стартап, выросший из команды бывших инженеров Snap и Google. А настоящей изюминкой этого проекта считается функция под названием Soul, и вот с ней-то стоит разобраться подробнее.

Higgsfield AI — откуда взялся проект

Историю стоит начать с имён. Основатель Higgsfield — Алекс Хан, бывший руководитель направления машинного обучения в Snap Inc. К слову, именно его наработки легли в основу тех самых вирусных AR-фильтров, которые в своё время заполонили соцсети. В 2023 году Хан собрал компактную команду из специалистов по компьютерному зрению, генеративным моделям и мобильной разработке. Идея была довольно дерзкой: дать обычному человеку возможность создавать кинематографичные короткие ролики с собственным цифровым двойником. Без зелёного экрана, без десятков дублей, без постпродакшена. Уже к весне 2024-го компания привлекла порядка восьми миллионов долларов на посевном раунде и выпустила мобильное приложение для iOS. И хотя название «Хиггсфилд» тяготеет к физике (отсылка к полю Хиггса — изящная, нужно признать), сам продукт целиком про визуальный контент.

Что скрывается за словом Soul?

Термин броский. Но что за ним стоит на самом деле? Soul — это механизм создания персонализированного цифрового аватара, который наследует внешность конкретного человека и переносит её в сгенерированное нейросетью видео. Дело в том, что большинство генеративных видеомоделей (вроде Sora от OpenAI или Runway Gen-3) умеют создавать впечатляющие ролики, однако персонажи в них — вымышленные лица. Вписать туда себя — задача совсем другого порядка. Вся суть Soul в том, что функция «привязывает» к генеративному процессу конкретную человеческую внешность, сохраняя при этом пропорции лица, мимику и даже характерные микродвижения. Результат выглядит так, будто человек действительно побывал в кадре, хотя на съёмочной площадке его и близко не было.

Как это работает на практике?

Процесс довольно прост — по крайней мере со стороны пользователя. Сначала нужно загрузить в приложение селфи или короткое видео собственного лица (буквально десять-пятнадцать секунд). Нейросеть анализирует геометрию лица, текстуру кожи, форму бровей, посадку глаз — всё до мельчайших нюансов. На основе этого формируется так называемый «слепок» личности, тот самый Soul. Далее следует выбор сценария. Приложение предлагает набор шаблонов — от танцевальных номеров до кинематографичных мини-сцен с драматичным освещением. А можно задать текстовый промпт, описав желаемую сцену словами. Нейросеть генерирует видеоряд, в котором тело и движения синтезированы моделью, а лицо принадлежит владельцу аккаунта. И всё это — за считаные минуты прямо на смартфоне.

Техническая начинка

Под капотом скрывается кое-что посложнее, чем просто «наложение лица поверх видео». Многие сравнивают Soul с дипфейками, но это сравнение хромает. Классический дипфейк берёт готовое видео и подменяет в нём лицо — отсюда характерные артефакты на границе шеи, «плавающие» уши и неестественная синхронизация губ. Higgsfield же генерирует ролик целиком, с нуля, встраивая черты лица непосредственно в процесс диффузии. Это связано с тем, что модель опирается на архитектуру латентной видеодиффузии, дополненную модулем идентификации личности. Грубо говоря, «слепок» лица подаётся в генератор как дополнительное условие — наравне с текстовым описанием сцены. Ведь именно этот подход позволяет избежать того жуткого «эффекта зловещей долины», когда лицо вроде бы похоже, но что-то неуловимо не так.

Отдельно стоит упомянуть оптимизацию для мобильных устройств. Тяжёлые генеративные модели обычно требуют серверных мощностей с GPU уровня A100 или H100. Команда Higgsfield потратила немало усилий на сжатие и квантизацию модели, чтобы часть вычислений происходила локально, а финальный рендер — на облачных серверах. Результат: от нажатия кнопки до готового пятисекундного ролика проходит около тридцати-сорока секунд. Для генеративного видео — это внушительная скорость.

Чем Soul отличается от конкурентов?

Конкурентное поле сейчас довольно плотное. Есть HeyGen с его говорящими аватарами, Synthesia для корпоративных презентаций, D-ID для анимации фотографий. Но каждый из этих сервисов тяготеет к одному формату — «говорящая голова» на статичном фоне. Higgsfield Soul идёт дальше. Ведь здесь аватар не просто шевелит губами — он двигается в пространстве, взаимодействует с окружением, меняет позы. По сути, разница примерно такая же, как между фотографией на паспорт и кинокадром. К тому же приложение изначально заточено под вертикальный формат коротких роликов — TikTok, Reels, Shorts. А это значит, что целевая аудитория здесь — не корпорации с их скучноватым e-learning, а креаторы, блогеры и обычные пользователи, которые грезят о вирусном контенте.

Впрочем, ложка дёгтя тоже имеется. На момент написания статьи Higgsfield доступен только на iOS, а длина генерируемых роликов ограничена пятью секундами. Да и детализация при сложных сценариях иногда «плывёт» — особенно если в кадре много движения и мелких деталей вроде пальцев рук. Но для стартапа, которому едва исполнился год, результаты всё-таки заслуживают уважения.

Вопрос безопасности — стоит ли тревожиться?

Неоднозначная тема. С одной стороны, технология персонализированных видеоаватаров открывает грандиозные возможности для творчества. С другой — подводные камни очевидны. Любой инструмент, способный «оживить» чужое лицо в произвольном контексте, потенциально опасен. Команда Higgsfield, к их чести, внедрила несколько защитных механизмов. Во-первых, создать Soul-аватар можно только на основе собственного лица — приложение требует живую верификацию через фронтальную камеру (по аналогии с Face ID). Во-вторых, на каждый сгенерированный ролик накладывается цифровой водяной знак, невидимый глазу, но считываемый специализированными детекторами. Ну и, конечно же, пользовательское соглашение прямо запрещает генерацию контента с участием третьих лиц без их согласия. Достаточно ли этого? Скорее нет, чем да. Но индустрия пока только нащупывает этические границы, и Higgsfield в этом смысле действует не хуже остальных.

Кому пригодится Higgsfield Soul?

Самый очевидный сценарий — контент-мейкеры. Блогер, которому нужен яркий ролик для Reels, но нет времени на полноценную съёмку, получает спасательный круг в виде нейросети, создающей видео за полминуты. Не стоит забывать и про малый бизнес: владелец кофейни может сгенерировать динамичный рекламный ролик с собственным участием, не прибегая к услугам видеографа. Кошелёк при этом останется практически нетронутым — базовая версия приложения бесплатна, а премиум-подписка не сильно ударит по бюджету.

Отдельная категория — образование и тренинги. Скажем, преподаватель хочет записать короткое видеообъяснение, но стесняется камеры или не имеет подходящего оборудования. Soul позволяет создать ролик, где «преподаватель» стоит на фоне виртуальной аудитории, жестикулирует, поворачивается к доске — и при этом выглядит абсолютно естественно. Нужно отметить, что для маркетинговых агентств инструмент тоже довольно любопытен: тестирование рекламных креативов с «реальным» лицом без дорогой видеопродакции — это ведь настоящий кладезь возможностей для A/B-тестов.

Настройка и первые шаги

Порог входа минимальный. После установки приложения из App Store пользователя встречает лаконичный интерфейс без лишней наляпистости. Первым делом — создание своего Soul-профиля. Приложение просит посмотреть прямо в камеру, затем медленно повернуть голову влево и вправо (это занимает секунд десять-двенадцать). Нейросеть фиксирует лицо под разными углами, формируя трёхмерную модель. Готово. Дальше — выбор сценария. На экране появляются карточки с превью: танцевальные движения, спортивные трюки, атмосферные кинематографичные сцены. Нажатие на карточку — и через полминуты ролик с вашим лицом готов к публикации. А если ни один шаблон не приглянулся, всегда можно вбить текстовый промпт и описать сцену своими словами.

Качество результата, само собой, зависит от исходного «слепка». Плохое освещение при записи лица или слишком резкие тени способны подпортить итоговую картинку. Тем более что нейросеть буквально «вшивает» текстуру кожи в сгенерированное видео, и любой артефакт на входе усиливается на выходе. Так что хорошее ровное освещение — негласное правило, которым не стоит пренебрегать.

Будущее персонализированных видеоаватаров

Буквально пару лет назад сама идея о том, что смартфон сможет генерировать кинематографичные видеоролики с твоим лицом, казалась чем-то из области фантастики. Сейчас же функции вроде Soul — это уже рабочий добротный инструмент, пусть и с оговорками. Направление развивается стремительно: конкуренты наступают на пятки, архитектуры моделей усложняются каждый квартал, а длительность генерируемых роликов неуклонно растёт. Higgsfield уже анонсировал планы по расширению до тридцатисекундных видео и выходу на Android. Да и интеграция с популярными социальными сетями — вопрос ближайших месяцев, не лет.

Сам факт того, что подобная технология доступна бесплатно любому владельцу iPhone, говорит о многом. Креативные инструменты, которые ещё вчера были привилегией студий с внушительными бюджетами, сегодня оседают в карманах миллионов людей. И Higgsfield Soul в этом процессе — не просто очередное приложение, а скорее маркер нового этапа, когда грань между «снятым» и «сгенерированным» видео окончательно размывается.

Тем, кто давно хотел попробовать себя в роли видеокреатора, но откладывал из-за нехватки оборудования или навыков монтажа, — сейчас самое время. Скачать приложение, создать свой первый Soul и выложить ролик — дело пяти минут. А результат, вполне возможно, приятно удивит и самого автора, и его подписчиков.