Создатель Higgsfield Илья Пелипас о нейросетях Midjourney и ElevenLabs

Нейросети за последние пару лет из экзотической лабораторной забавы превратились в рабочий инструмент — причём не только для программистов и дата-сайентистов, но и для художников, музыкантов, режиссёров и предпринимателей. Львиная доля внимания публики оседает на громких именах вроде Midjourney и ElevenLabs, а вот люди, стоящие за менее раскрученными, но не менее амбициозными проектами, часто остаются в тени. Один из таких людей — Илья Пелипас, основатель стартапа Higgsfield, занимающегося генерацией видео на базе искусственного интеллекта. Его взгляд на индустрию тем и ценен, что формируется не снаружи, а изнутри — он ведь сам строит конкурирующий продукт и понимает подводные камни технологии до мельчайших нюансов. А потому к его оценкам Midjourney и ElevenLabs стоит прислушаться особенно внимательно.

Все топовые нейросети в одном месте

Кто такой Илья Пелипас и при чём тут Higgsfield?

Прежде чем разбирать чужие достижения, стоит понять, кто именно их оценивает. Илья Пелипас — инженер и предприниматель, прошедший довольно длинный путь в области машинного обучения, прежде чем запустить собственный стартап. Higgsfield — его детище, сфокусированное на генеративном видео. Идея, на первый взгляд, звучит просто: дать обычному пользователю возможность создавать реалистичные видеоролики с помощью текстового промпта. Но за этой простотой стоит колоссальный инженерный труд — обработка движений, мимика, физика света, согласованность кадров. Пелипас не раз подчёркивал, что именно видео — самый сложный рубеж для генеративного ИИ, потому что статичная картинка прощает многое, а движущееся изображение моментально выдаёт любую фальшь. И когда человек с таким бэкграундом говорит о Midjourney или ElevenLabs, его слова несут совсем иной вес, чем мнение рядового обывателя.

Midjourney глазами конкурента

Midjourney приковывает внимание. Это факт, который сложно оспорить. За пару лет сервис, запущенный Дэвидом Хольцем без единого доллара венчурного финансирования, превратился в негласный стандарт генерации изображений. Пелипас, говоря о Midjourney, не скупится на похвалу — но похвалу специфическую, инженерную. Его восхищает не столько качество картинок (хотя оно и впечатляет), сколько скорость итераций. Команда Midjourney умудряется выкатывать обновления модели с такой частотой, что конкуренты попросту не успевают анализировать предыдущую версию, когда уже появляется следующая.

Впрочем, есть и ложка дёгтя. Пелипас обращает внимание на то, что Midjourney до сих пор тяготеет к определённой эстетике — «красивости ради красивости», как он это формулирует. Сгенерированные картинки часто выглядят великолепно, но в них ощущается какая-то стерильность. А ведь в реальном искусстве — будь то фотография, живопись или кинематограф — именно «грязь», несовершенство и случайность придают работе характер. Этот нюанс, по мнению Пелипаса, остаётся слабым местом всех генеративных моделей, но у Midjourney он бросается в глаза особенно сильно. Дело в том, что сервис изначально был заточен под визуальный «вау-эффект», и избавиться от этого наследия довольно непросто.

Все топовые нейросети в одной подписке! 🚀

Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».

Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL

Стоит ли сравнивать генерацию картинок и видео?

Задача не из лёгких. Пелипас намеренно проводит параллели между тем, что делает Midjourney со статичными изображениями, и тем, к чему стремится Higgsfield в видео. Но параллели эти скорее подчёркивают разницу, нежели сходство. Картинка — это один кадр, один момент, замороженный во времени. Видео — это последовательность из двадцати четырёх (а иногда и шестидесяти) таких кадров в секунду, и каждый следующий должен быть физически согласован с предыдущим. Стоит одному пикселю «прыгнуть» не туда — и зритель мгновенно замечает артефакт. По словам Пелипаса, Midjourney на своём этапе решала задачу, которая по сложности сопоставима с подъёмом на второй этаж, тогда как генеративное видео — это восхождение на тридцатый. И всё же опыт Midjourney бесценен, ведь именно их подход к обучению диффузионных моделей во многом заложил фундамент для видеогенерации.

ElevenLabs и магия синтетического голоса

Голос. Казалось бы, что может быть проще — набор звуковых волн, вибрация голосовых связок, артикуляция. Но на деле именно голос оказался одной из самых щепетильных задач для нейросетей. Пелипас относится к ElevenLabs с нескрываемым уважением — и это при том, что их продукт не конкурирует с Higgsfield напрямую. ElevenLabs удалось добиться того, к чему индустрия шла добрых пятнадцать лет: синтезированный голос перестал звучать «роботически». Интонации, паузы, лёгкое придыхание на стыке фраз — всё это теперь воспроизводится с пугающей достоверностью.

Однако Пелипас подмечает и кое-что тревожное. Технология клонирования голоса, на которой ElevenLabs построила значительную часть своей репутации, открывает двери для злоупотреблений. И хотя компания внедряет механизмы защиты — верификацию владельца голоса, водяные знаки в аудиодорожке — подводные камни никуда не деваются. «Мы все ходим по тонкому льду», — говорит Пелипас, имея в виду баланс между инновацией и ответственностью. Ведь стоит технологии попасть в недобросовестные руки, и ущерб от мошеннических звонков или фальшивых аудиозаписей может оказаться колоссальным. К тому же регуляторы пока не поспевают за скоростью развития — и это беспокоит не только Пелипаса.

Что общего у Midjourney и ElevenLabs?

На самом деле довольно много — если смотреть не на продукт, а на философию. И Midjourney, и ElevenLabs начинали как небольшие команды с амбициозной идеей, без миллиардных бюджетов на инфраструктуру. Обе компании сделали ставку на качество «выходного результата», а не на количество функций. Обе же столкнулись с тем, что массовый пользователь использует их инструменты совсем не так, как задумывали разработчики — и в этом Пелипас видит главный парадокс генеративного ИИ. Создатели проектируют инструмент для профессионалов, а массовый спрос формируют люди, которые хотят просто развлечься. И именно эта вторая категория в итоге определяет вектор развития продукта.

Кстати, Пелипас отмечает ещё одну важную деталь: и Midjourney, и ElevenLabs научились превращать сложнейшую технологию в понятный интерфейс. Буквально пара строк текста — и ты получаешь результат, на достижение которого вручную ушли бы часы, а то и дни. Эта «невидимость» технологии — главное достижение, считает Пелипас. Ведь пользователь не хочет знать, сколько параметров у модели и какая архитектура трансформера лежит в основе. Ему нужен результат. Быстрый, добротный, впечатляющий.

Чему Higgsfield учится у «старших»?

Пелипас не стесняется признавать, что черпает вдохновение у конкурентов. Это вообще довольно редкая черта для основателей технологических стартапов — обычно бомонд Кремниевой долины предпочитает говорить исключительно о собственной самобытности. Но Пелипас придерживается иного подхода. От Midjourney, по его словам, Higgsfield перенял принцип «качество важнее скорости масштабирования». Midjourney долго оставалась в Discord-боте, не торопясь выпускать полноценное веб-приложение. И это сработало. Потому что к моменту запуска сайта аудитория уже была влюблена в продукт.

От ElevenLabs Higgsfield взял на вооружение стратегию «мультимодальной экспансии». ElevenLabs начинала с простого синтеза речи, затем добавила клонирование голоса, потом — перевод аудио с сохранением тембра говорящего, а позже и звуковые эффекты. Каждый новый слой накладывался на предыдущий, усиливая экосистему. Пелипас планирует двигаться по аналогичной траектории: сначала — генерация коротких видеоклипов, затем — управление персонажами, далее — интеграция со звуком (и вот тут, вероятно, пересечение с ElevenLabs станет неизбежным). Но до этого ещё нужно дожить, и Пелипас трезво оценивает дистанцию.

Подводные камни генеративной индустрии

Ни один разговор о нейросетях сегодня не обходится без упоминания проблем. И Пелипас здесь предельно откровенен. Во-первых, вычислительные мощности — это серьёзное вложение, которое бьёт по бюджету даже хорошо финансируемых стартапов. Стоимость аренды GPU-кластеров растёт, а конкуренция за чипы Nvidia между гигантами вроде Google, Microsoft и Meta делает положение небольших компаний довольно шатким. Во-вторых, авторское право — тема, от которой всех участников индустрии бросает в дрожь. Midjourney уже столкнулась с исками от художников, ElevenLabs — с претензиями актёров озвучки. Ну и, наконец, вопрос доверия: по мере того как синтетический контент становится всё более реалистичным, отличить настоящее от сгенерированного будет всё сложнее.

Пелипас не прячется от этих проблем. Напротив — он считает, что именно создатели технологий должны первыми предлагать решения. В Higgsfield, к примеру, экспериментируют с «цифровыми водяными знаками», встроенными прямо в генерируемое видео на уровне модели. Это не панацея, но хоть какой-то шаг. А вот от идеи полной саморегуляции индустрии Пелипас открещивается — без разумного государственного контроля, по его мнению, всё скатится в хаос.

Что ждёт генеративные нейросети через пару лет?

Прогнозы — дело неблагодарное. Особенно в сфере, где полгода равны десятилетию в любой другой отрасли. И всё же Пелипас рискует заглянуть вперёд. Midjourney, по его ожиданиям, двинется в сторону видео — собственно, намёки на это уже появлялись. ElevenLabs продолжит экспансию в мультимодальность, и вполне вероятно, что через год-полтора их инструмент будет не только синтезировать голос, но и генерировать музыку, окружающие звуки и даже целые саундтреки для фильмов. А вот Higgsfield, если верить Пелипасу, сосредоточится на «персонализации» — возможности для пользователя создавать видео со своим цифровым аватаром, который двигается и говорит естественно.

Все топовые нейросети в одном месте

Многие считают, что через пять лет нейросети полностью заменят целые профессии. Но Пелипас смотрит на ситуацию иначе. По его словам, генеративный ИИ — это скорее спасательный круг для перегруженных творческих команд, а не их могильщик. Маленькая студия из трёх человек с помощью Midjourney, ElevenLabs и Higgsfield сможет производить контент, на который раньше требовался штат из тридцати специалистов. Но режиссёр, художник и сценарист всё равно останутся за кадром — просто их инструменты изменятся до неузнаваемости.

Взгляд практика, а не теоретика

Изюминка позиции Пелипаса — в её прикладной честности. Он не грезит утопией, где ИИ решит все проблемы человечества, но и не нагнетает страх. Каждый его комментарий о Midjourney или ElevenLabs пропитан профессиональным уважением, помноженным на здоровый скепсис инженера, который сам ежедневно сталкивается с ограничениями технологии. Когда Пелипас говорит «Midjourney научила рынок ждать качества, а не скорости», он имеет в виду вполне конкретный урок: пользователь готов ждать две минуты ради крутого результата, но не потерпит мгновенный, зато посредственный. А когда он отмечает, что ElevenLabs «превратила голос в API», за этой метафорой стоит глубокая мысль о том, как сложнейшие когнитивные функции человека (речь, интонация, эмоции) становятся программируемыми.

Да и сама позиция «смотрю на конкурентов и открыто говорю, чему у них учусь» — довольно нетипичная для основателей стартапов. Обычно в интервью звучат дежурные фразы о «своём видении» и «новом подходе». Пелипас же не боится сказать, что Midjourney в некоторых вещах впереди, а ElevenLabs задала планку, до которой многим ещё расти. Такая откровенность заслуживает истинного уважения — тем более что за ней стоит не слабость, а уверенность человека, который точно знает, куда ведёт свой корабль.

Индустрия генеративного ИИ сейчас напоминает ранний интернет конца девяностых — хаотичный, шумный, полный грандиозных обещаний и неизбежных разочарований. Но именно из этого хаоса рождаются по-настоящему прорывные вещи. Midjourney уже изменила отношение миллионов людей к визуальному контенту, ElevenLabs — к звуковому, а Higgsfield Пелипаса метит в видеосегмент. Кто из них окажется на вершине через пять лет — вопрос открытый. Но одно ясно уже сейчас: наблюдать за этой гонкой невероятно интересно, а результаты её непременно затронут каждого из нас. Удачи Пелипасу и всем, кто не боится строить будущее собственными руками — пусть даже руками, усиленными нейросетями.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *