Коллаборация МТС и Higgsfield: как оператор использует новые технологии

Ещё буквально пять-шесть лет назад генерация видео с помощью нейросетей казалась чем-то из разряда научной фантастики — забавной, но далёкой от реального применения. Ролики длились пару секунд, лица расплывались, а движения персонажей напоминали скорее кошмарный сон, чем внятный контент. Но технологии на месте не стоят. И сейчас крупные корпорации всерьёз вкладываются в генеративные модели, видя в них не игрушку, а мощный инструмент для бизнеса. Одним из самых любопытных примеров такого подхода на российском рынке стала коллаборация МТС с американо-израильским стартапом Higgsfield — и о ней стоит поговорить подробнее.

Все топовые нейросети в одном месте

Что за зверь такой — Higgsfield?

Название компании отсылает к бозону Хиггса — частице, которая придаёт массу всему во Вселенной. Амбициозно. Впрочем, амбиции у ребят вполне подкреплены делом. Higgsfield AI основали в 2023 году выходцы из Snap (той самой компании, что стоит за Snapchat), и за считанные месяцы стартап привлёк внимание серьёзных инвесторов. Дело в том, что команда сосредоточилась на довольно узкой, но перспективной нише — генерации персонализированного видеоконтента с участием реалистичных цифровых аватаров. Не абстрактных «картинок в движении», а именно видео, где виртуальный человек говорит, жестикулирует и выглядит убедительно. Собственно, именно эта специализация и привлекла внимание МТС.

Зачем телеком-гиганту нейросетевое видео?

Вопрос резонный. Казалось бы, оператор связи — это про тарифы, вышки и абонентскую плату. Но МТС давно перестал быть «просто оператором». Экосистема разрослась до масштабов, охватывающих стриминг (KION), финтех (МТС Банк), облачные решения и, конечно же, рекламные технологии. А где реклама — там и контент. Львиная доля маркетинговых бюджетов сегодня уходит на видео, и производство такого контента бьёт по кошельку даже крупных игроков. Съёмочная площадка, актёры, монтаж, цветокоррекция — один рекламный ролик на тридцать секунд может обойтись в несколько миллионов рублей. И вот тут генеративные модели становятся настоящим спасательным кругом.

МТС рассматривает технологии Higgsfield не как замену классическому продакшну, а как дополнение к нему. Это важный нюанс. Никто не говорит о том, чтобы полностью отказаться от живых съёмок. Однако для определённых задач — персонализированных обращений к клиентам, внутренних коммуникаций, быстрого прототипирования рекламных концепций — нейросетевое видео подходит идеально. К тому же скорость производства несопоставима: то, на что раньше уходили недели, теперь занимает часы.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Как устроена технология изнутри

Техническая начинка. Higgsfield использует комбинацию нескольких подходов — диффузионных моделей для генерации изображений, отдельного модуля синтеза речи и системы анимации лицевых мышц, которая работает на основе 3D-морфинга. Вся суть в том, что аватар создаётся не «с нуля», а на базе реальных видеоданных конкретного человека. Достаточно нескольких минут записи (примерно от трёх до пяти), чтобы модель «выучила» мимику, артикуляцию и характерные жесты. После этого цифровому двойнику можно «подложить» любой текст — и он произнесёт его с интонациями, максимально приближенными к оригиналу.

Стоит ли доверять качеству? Вопрос щепетильный. Ведь ещё совсем недавно подобные системы выдавали результат, мягко говоря, неубедительный. Губы двигались не в такт словам, взгляд «стекленел», а общее впечатление было жутковатым — так называемый эффект «зловещей долины». Higgsfield, впрочем, эту проблему решает довольно элегантно. Их модель обучена на внушительном массиве видеоданных (по некоторым оценкам — несколько сотен тысяч часов записей), и результат действительно приковывает внимание. Не идеал, но при просмотре на экране смартфона — а именно так большинство людей потребляет контент — отличить сгенерированное видео от реального становится всё сложнее.

Практические сценарии в экосистеме МТС

Один из самых очевидных сценариев — персонализированная реклама. Представьте себе ситуацию: абонент получает видеообращение, где «живой» ведущий называет его по имени, упоминает текущий тариф и предлагает выгодную замену. Не сухую SMS-ку, не безликий баннер, а полноценное видео. Эффективность такого подхода, по внутренним тестам МТС, оказалась на 40% выше по конверсии по сравнению с традиционными push-уведомлениями. Цифра внушительная, хотя и не стоит забывать, что тесты проводились на ограниченной выборке.

Второй грандиозный сценарий — контент для платформы KION. Нужно отметить, что стриминговому сервису требуется колоссальный объём промо-материалов: трейлеры, анонсы, подборки. Раньше для каждого такого ролика привлекали ведущего, записывали озвучку, монтировали. Сейчас часть этой работы берёт на себя нейросеть. Цифровой аватар может «рассказать» о новинках кинотеки за считанные минуты, причём на нескольких языках — и это не потребует повторной съёмки. Да и стоимость такого производства не сильно ударит по бюджету подразделения.

Ну и, конечно же, внутренние коммуникации. Корпорация масштаба МТС — это десятки тысяч сотрудников по всей стране. Обучающие видео, инструктажи, обращения руководства. Вся эта махина контента теперь может генерироваться полуавтоматически. К слову, именно в корпоративном сегменте технология показала себя наиболее зрело, потому что требования к «безупречности картинки» здесь ниже, чем в публичной рекламе.

Подводные камни и этические вопросы

Было бы наивно говорить об этой коллаборации исключительно в восторженных тонах. Есть ложка дёгтя. И даже не одна. Первая и самая очевидная проблема — deepfake-риски. Технология, которая позволяет создать убедительного цифрового двойника любого человека, в недобросовестных руках становится оружием. МТС заверяет, что использование аватаров происходит только с письменного согласия «прототипа», а все сгенерированные ролики проходят через внутреннюю систему маркировки. Но насколько надёжна эта система — вопрос открытый.

Следующий неоднозначный момент — реакция аудитории. Многие люди испытывают интуитивное отторжение, узнав, что «живой» ведущий в видео на самом деле нейросетевой аватар. Это связано с тем, что нарушается базовое доверие между брендом и потребителем. Кстати, исследования Стэнфордского университета 2024 года показали: 62% респондентов относятся к AI-генерированным обращениям негативно, если им заранее не сообщают о природе контента. Но вот если маркировка стоит и человек понимает, с чем имеет дело, — негатив снижается почти вдвое. А значит, прозрачность здесь становится критически важной.

Есть и чисто технические ограничения. Модели Higgsfield пока довольно плохо справляются с динамичными сценами — быстрыми движениями рук, сложными ракурсами, взаимодействием нескольких персонажей в кадре. Изображение «плывёт», артефакты всплывают в самых неожиданных местах. Для «говорящей головы» на нейтральном фоне результат отличный, а вот для полноценного кинематографического видео — пока рановато.

Сколько это стоит и кто платит

Финансовые детали сделки между МТС и Higgsfield в открытый доступ не попали. Впрочем, по косвенным признакам можно судить о серьёзности вложений. МТС AI — подразделение, которое курирует все проекты компании в сфере искусственного интеллекта — в 2024 году получило бюджет, превышающий 8 миллиардов рублей. Разумеется, львиная доля этих средств направлена на инфраструктуру и развитие собственных моделей, но часть уходит именно на партнёрства с внешними разработчиками. Higgsfield — один из них.

Стоит отметить, что модель сотрудничества выбрана нетипичная. Это не просто лицензирование готового продукта. МТС получает доступ к API стартапа и параллельно ведёт совместную доработку моделей под русскоязычный сегмент. Дело в том, что изначально Higgsfield обучался преимущественно на англоязычных данных, а артикуляция русской речи заметно отличается от английской — другие движения губ, иная ритмика. Совместная команда инженеров над этой проблемой работала около полугода, и результат, по словам представителей МТС, оказался «более чем удовлетворительным». Тем более что адаптация под конкретный язык — процесс небыстрый, но кропотливый.

Конкуренты на горизонте

МТС в этом направлении не одинок. «Сбер» со своим GigaChat и набором генеративных инструментов активно экспериментирует с видео. «Яндекс» развивает собственные модели в рамках YandexGPT-экосистемы. Тинькофф (теперь Т-Банк) тоже не стоит в стороне — их маркетинговая команда ещё в конце 2023 года тестировала AI-генерированные рекламные креативы. Но именно в связке «телеком-оператор + стартап-генератор видео» МТС выступил первым на российском рынке. И этот статус первопроходца — серьёзное преимущество, хотя и накладывает дополнительную ответственность.

На мировой арене ситуация ещё интереснее. Sora от OpenAI, Runway Gen-3, Pika Labs — добротные продукты, каждый со своими сильными сторонами. Однако Higgsfield отличается от них фокусом именно на персонализации. Если Sora генерирует абстрактные ролики по текстовому описанию, то Higgsfield создаёт «цифрового близнеца» конкретного человека. И вот эта ниша оказалась для телеком-индустрии наиболее востребованной, ведь персональное обращение к абоненту — основа современного маркетинга.

Все топовые нейросети в одном месте

Что дальше?

Планы у МТС на это направление весьма амбициозные. К слову, в марте 2025 года компания уже анонсировала расширение эксперимента: аватары-консультанты планируют «заселить» в приложение «Мой МТС». Это значит, что вместо текстового чат-бота абонент сможет общаться с виртуальным помощником, который будет не только отвечать на вопросы, но и визуально присутствовать на экране — жестикулировать, кивать, улыбаться. Звучит немного футуристично, но с учётом темпов развития технологии — вполне реалистично.

Отдельно стоит упомянуть потенциал в сфере e-commerce. МТС владеет долей в маркетплейсе Ozon, и там нейросетевые видеообзоры товаров могли бы стать настоящей изюминкой. Вместо скучных карточек товара — короткий ролик, где цифровой ведущий показывает гаджет, рассказывает о характеристиках, сравнивает с аналогами. Технически это уже осуществимо, хотя до массового внедрения ещё предстоит пройти немалый путь.

Стоит ли опасаться «цифрового замещения»?

Вопрос тревожный, и от него нет смысла отмахиваться. Если нейросеть способна заменить ведущего, актёра озвучки, а отчасти и монтажёра — что станет с этими профессиями? МТС в официальных комментариях придерживается мягкой позиции: мол, технология не заменяет людей, а «освобождает их для более творческих задач». Классический корпоративный нарратив. На самом деле обе стороны медали видны отчётливо. Да, рутинные задачи автоматизируются. Но появляются и новые роли — «тренер аватаров», «контролёр качества AI-контента», «сценарист для нейросетевых роликов». Рынок труда не схлопывается, а трансформируется. Впрочем, тем, кто зарабатывал исключительно «лицом в кадре» без глубокой экспертизы, всё-таки стоит задуматься о расширении компетенций.

Коллаборация МТС и Higgsfield — пожалуй, один из самых наглядных примеров того, как российский бизнес учится интегрировать передовые генеративные технологии не ради хайпа, а для решения конкретных задач. Процесс идёт не без шероховатостей, но общее направление внушает оптимизм. Ведь компании, которые осваивают эти инструменты сейчас, через пару лет окажутся в значительно более выигрышной позиции, чем те, кто предпочёл выжидать. А наблюдать за тем, как из экспериментальных пилотов вырастают полноценные продукты, — удовольствие само по себе.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *