История создания: кто создал нейросеть Higgsfield и как она развивалась

Ещё пару лет назад сама мысль о том, что можно набрать пару строк текста и получить кинематографичный видеоролик с движением камеры «облёт героя», казалась фантастикой из разряда голливудских баек. А сегодня этим балуется чуть ли не каждый второй блогер в запрещённой соцсети. И в этой бурлящей пене нейросетевых стартапов особенно громко выстрелил один проект — Higgsfield AI. Имя, отсылающее к физике элементарных частиц, прилипло к сервису неслучайно. Но чтобы разобраться, откуда он вырос и почему о нём заговорил весь креативный бомонд, стоит вернуться на несколько лет назад — к истокам, где всё только зарождалось.

Кто стоит у истоков проекта

Основателем Higgsfield AI стал Алекс Машрабов — инженер и предприниматель с казахстанскими корнями, известный в узких кругах ещё до того, как о генеративном видео заговорили всерьёз. За его плечами — ни много ни мало руководство целым направлением генеративного ИИ в компании Snap Inc., той самой, что подарила миру Snapchat. Именно там он отвечал за ИИ-фильтры, аватары и ранние эксперименты с визуальной генерацией. Работа в корпорации дала бесценный опыт, но, как водится, рамки большой компании начали жать. Хотелось чего-то своего, дерзкого, без оглядки на бесконечные согласования.

Почему Машрабов вообще решил уйти в свободное плавание? Ответ довольно банален — он увидел окно возможностей. К 2023 году стало ясно: рынок генерации изображений уже поделен между Midjourney, DALL-E и Stable Diffusion, а вот с видео всё обстояло куда интереснее. Ниша пустовала. Конкуренты только-только нащупывали подход, а качество роликов оставляло желать лучшего. Именно тогда и родилась идея — собрать команду и сделать ставку на мобильный, массовый, по-настоящему дружелюбный к обычному пользователю видеогенератор. К слову, соратников искали не по объявлениям. Костяк составили бывшие коллеги по Snap, исследователи из Google и выходцы из академической среды — люди, которые уже варились в этой кухне годами.

С чего всё начиналось

Официально компания Higgsfield AI была объявлена миру в марте 2024 года. Стартовый капитал — восемь миллионов долларов посевных инвестиций, которые собрали с такой лёгкостью, будто деньги в венчурный фонд закинули авансом «под Машрабова». Среди инвесторов оказались Menlo Ventures и ряд ангелов из Кремниевой долины. Сумма по меркам ИИ-индустрии скромная, но для старта — вполне достаточная. Ведь главная ценность проекта на тот момент была не в железе, а в головах основателей.

Откуда взялось название? Это отсылка к бозону Хиггса — той самой «частице Бога», которую физики ловили десятилетиями на Большом адронном коллайдере. Машрабов признавался в интервью, что хотел провести параллель: как бозон Хиггса придаёт массу другим частицам, так и их нейросеть должна «наделять смыслом» цифровые пиксели, превращая их в живое движение. Красивая метафора, что ни говори. Да и звучит солидно — не какой-нибудь там очередной «AI Studio Pro».

Первый продукт и ставка на мобильность

Задача не из лёгких. Первым детищем команды стало приложение Diffuse — мобильный сервис, позволявший за пару минут создать ролик с собственным лицом в главной роли. Пользователь загружал селфи, выбирал сценарий, и нейросеть выдавала коротенькое видео, где этот человек, к примеру, танцевал на сцене или шёл по подиуму. Звучит просто, но технологически это была настоящая махинация — требовалось одновременно удерживать узнаваемость лица, физику движений и сносное качество картинки на уровне хотя бы 720p.

Diffuse запустили летом 2024 года, и реакция оказалась неоднозначной. С одной стороны, публика восторженно ахала — такого на мобилке ещё не делали. С другой — критики справедливо указывали на артефакты, «плывущие» черты лица и ограниченный набор шаблонов. Ложка дёгтя была, и немалая. Но Higgsfield быстро извлёк уроки. Команда поняла: гнаться за Runway и Pika на их поле — бесперспективно. Нужен был собственный козырь. И его нашли.

Главный прорыв: управление камерой

Осенью 2024-го компания выкатила то, что действительно взорвало профессиональное сообщество — модель, умеющую имитировать кинематографические движения камеры. Bullet time, dolly zoom, облёт, наезд, отъезд, вертолётная съёмка — все эти приёмы, над которыми операторы корпели десятилетиями, теперь генерировались по текстовому описанию. И не просто генерировались, а с пониманием физики сцены.

«Мы не пытались сделать ещё один генератор видео. Мы хотели дать людям инструмент, который понимает язык кино. Камера — это не просто точка обзора, это эмоция, ритм, дыхание сцены», — так объяснял философию проекта сам Машрабов в одном из подкастов.

Что именно изменилось под капотом? Дело в том, что большинство конкурентов обучали модели на случайных видеороликах из интернета, где камера болтается как попало. Higgsfield же пошёл другим путём — исследователи специально разметили тысячи профессиональных сцен с чёткой классификацией операторских приёмов. Трудоёмко? Ещё бы. Кропотливо и местами мучительно. Зато результат оправдал все вложенные часы. Модель научилась отличать плавный crane shot от резкого whip pan, и пользователь мог выбирать нужный приём буквально одним кликом.

Как развивался продукт в 2024–2025 годах

Дальше события понеслись лавиной. Higgsfield перестал быть просто мобильным приложением и превратился в полноценную веб-платформу для креаторов. К концу 2024 года появились функции Higgsfield Mix, позволяющие комбинировать несколько стилей в одном ролике, а чуть позже — инструменты для работы с длинными сценами. Довольно быстро сервис полюбили TikTok-блогеры, рекламщики и инди-режиссёры, которым не по карману полноценная съёмочная группа.

К слову, именно рекламная индустрия стала для проекта настоящей золотой жилой. Раньше съёмка тридцатисекундного ролика с облётом героя требовала крана, оператора, постпродакшна и бюджета в несколько тысяч долларов. Теперь похожий результат можно получить за цену подписки — а это уже не удар по бюджету, а лёгкое покалывание кошелька. Неудивительно, что небольшие бренды и SMM-щики потянулись к сервису косяком.

Следующий виток — партнёрство с более крупными игроками рынка. Higgsfield начал интегрировать сторонние модели, включая движки генерации изображений, и превратился в своеобразный хаб. Пользователь получал не один инструмент, а целую мастерскую — с шаблонами, пресетами камер, библиотекой стилей. И всё это без необходимости разбираться в тонкостях машинного обучения.

Команда и корпоративная кухня

Особый интерес вызывает то, как устроена внутренняя работа стартапа. Штаб-квартира расположилась в Сан-Франциско, но костяк команды — распределённый. Инженеры работают из разных точек мира, включая специалистов из постсоветского пространства. Машрабов никогда не скрывал, что целенаправленно охотится за талантами в Центральной Азии и Восточной Европе — регионах, где сильные математики и программисты нередко сидят без громких проектов. Это не только экономия на зарплатах (хотя и она тоже), но и доступ к людям, которые умеют мыслить нестандартно.

Размер команды на старте — порядка пятнадцати человек. К середине 2025 года штат вырос раза в три, но по меркам ИИ-гигантов это всё равно крохи. Зато каждый сотрудник отвечает за конкретный кусок продукта, а бюрократия сведена к минимуму. Ведь именно скорость принятия решений в этой гонке становится главным оружием. Пока условный Google согласует очередной релиз через семь комитетов, Higgsfield уже выкатывает обновление в продакшн.

Подводные камни и критика

Конечно, не всё было гладко. Вместе с ростом популярности на проект посыпались и претензии. Во-первых, вопросы авторского права — на каких именно видео обучалась модель, компания раскрывать не спешила. Во-вторых, появились опасения насчёт дипфейков: возможность быстро вставить любое лицо в любой сценарий — палка о двух концах. Higgsfield пришлось вводить фильтры, водяные знаки и ограничения на определённые типы контента.

Критиковали и качество. Несмотря на впечатляющие демо, в реальной работе пользователи нет-нет да натыкались на артефакты — кривые пальцы, странные переходы, «плывущие» фоны. Проблема, впрочем, общая для всей индустрии генеративного видео. Да и сами разработчики не скрывали, что до идеала ещё далеко. На подкастах Машрабов часто повторял любимую мысль: мы в самом начале пути, технология младенческая, настоящий расцвет впереди.

Чем Higgsfield отличается от конкурентов?

Runway, Pika, Luma, Kling, Sora от OpenAI — игроков на поле генерации видео сейчас хватает. В чём же изюминка Higgsfield? Ответ лежит на поверхности: фокус на операторском мастерстве и доступность для массового пользователя. Если Sora делает ставку на максимальное качество и длину ролика, а Runway — на профессиональные монтажные инструменты, то Higgsfield занял нишу «кинематографичного бытового контента». Проще говоря, инструмент для тех, кто хочет выглядеть как голливудский режиссёр, не будучи им.

Кроме того, платформа изначально заточена под социальные сети. Соотношения сторон, длительность, пресеты под вертикальные сторис — всё продумано так, чтобы готовый ролик можно было без правок закинуть в TikTok или Reels. Это серьёзное конкурентное преимущество, особенно на фоне более «инженерных» аналогов, где новичок тонет в настройках уже на третьей минуте знакомства с интерфейсом.

Что дальше?

Планы у компании амбициозные, чтобы не сказать грандиозные. В ближайших релизах обещают поддержку более длинных роликов (до минуты и больше), улучшенную работу со звуком и, что особенно интересно, интеграцию с реальными съёмочными процессами. Идея в том, чтобы режиссёр мог «пре-визуализировать» сцену в Higgsfield ещё до реальных съёмок, а потом использовать это как мудборд для съёмочной группы. Если получится — это изменит всю предпродакшн-индустрию.

Также обсуждается запуск модели с открытым API для разработчиков — чтобы сторонние приложения могли встраивать функции Higgsfield внутрь себя. А в кулуарах поговаривают о втором раунде инвестиций, уже куда более внушительном, чем стартовые восемь миллионов. Если слухи подтвердятся, капитализация проекта вполне может перевалить за сотню миллионов долларов. Неплохо для стартапа, которому едва исполнился год с небольшим.

Чему учит эта история

История Higgsfield — это, по сути, иллюстрация того, как в нужный момент, с нужной командой и правильно выбранной нишей можно за считанные месяцы выбить себе место под солнцем в самой конкурентной индустрии десятилетия. Машрабов и его ребята не пытались быть лучшими во всём. Они нашли одну конкретную боль — отсутствие понимания «языка камеры» у существующих моделей — и ударили точно по ней. Так и работает инновация: не распыляться, а бить в одну точку, пока не пробьёшь стену.

Тем, кто следит за миром ИИ или сам подумывает о запуске чего-то своего, стоит внимательно изучить этот кейс. Он показывает, что время одиночек-гигантов вроде OpenAI не исключает появления маленьких, но очень острых проектов, которые занимают свои ниши и прекрасно там себя чувствуют. А всем любопытствующим креаторам — самое время зарегистрироваться на платформе и попробовать снять свой первый «кинематографичный» ролик. Кто знает, может именно ваше видео завтра соберёт миллионы просмотров и станет визитной карточкой нового поколения визуальных историй. Удачи в экспериментах — и пусть камера слушается с полуслова!