Кому принадлежит нейросеть Suno: история создания и разработчики

Ещё пару лет назад сама мысль о том, что любой желающий сможет за минуту сочинить полноценную песню с вокалом, припевом и живыми гитарами, казалась чем-то из области фантастики. Композиторы годами учились работать с гармонией, студии брали за сведение сотни долларов, а певцы оттачивали голос десятилетиями. Но пришёл сервис, который перевернул эту неспешную индустрию с ног на голову — и сделал это буквально за считанные месяцы. Речь о Suno AI. А начать стоит с того, кто вообще стоит за этим громким именем и почему команда из Кембриджа умудрилась обойти технологических гигантов.

Что такое Suno в двух словах

Suno — это генеративная нейросеть, умеющая создавать музыку по текстовому запросу. Пишешь промпт вроде «грустный инди-рок про осень и старый трамвай», и через полминуты получаешь трек с вокалом, аранжировкой и вполне сносным сведением. Звучит как магия? На самом деле за этим стоит комбинация из нескольких моделей: одна отвечает за текст песни, другая — за мелодию, третья собирает всё это в аудио. Работает такая связка довольно шустро, хотя и не без огрехов. Ложка дёгтя — иногда вокал «плывёт», а гитары звучат ватно. Но общее впечатление — грандиозное.

Кто владеет Suno

Сервис принадлежит одноимённой частной компании Suno, Inc., зарегистрированной в Кембридже, штат Массачусетс. Это не подразделение Google, не дочка Microsoft и уж точно не проект OpenAI, хотя многие обыватели путают. На самом деле — полностью независимый стартап, живущий за счёт венчурных инвестиций и платных подписок.

Контрольный пакет — у основателей и сотрудников, существенная доля — у инвесторов. Никаких корпораций-мастодонтов в списке владельцев нет. И это, пожалуй, как раз та деталь, что приковывает внимание: маленькая команда утёрла нос большим игрокам на их же поле.

Основатели: четверо из Кембриджа

У истоков стоят четверо — Майки Шульман, Георг Кучко, Мартин Камачо и Кинан Фрейберг. Познакомились они ещё до Suno, работая вместе в бостонской компании Kensho Technologies, которая занималась финансовой аналитикой и распознаванием речи. Именно там ребята набили руку на задачах, связанных со звуком, и поняли, что аудио — это не просто цифры, а нечто куда более живое и капризное.

Майки Шульман — текущий CEO проекта. По образованию физик, защитил докторскую в Гарварде, увлекался машинным обучением задолго до того, как это стало мейнстримом. Кучко отвечает за инфраструктуру и исследовательскую часть, Камачо — за инженерную начинку, а Фрейберг курирует продуктовое направление. Команда небольшая, но скрупулёзная. Каждый отвечает за свой участок, и это, кстати, одна из причин, почему релизы Suno выходят так часто.

Как всё начиналось

Ну, а зарождалось всё довольно буднично. В 2022 году четвёрка покинула Kensho и основала собственный стартап. Изначально фокус был не на песнях — ребята копали в сторону генерации речи и звуковых эффектов. Первым заметным продуктом стал Bark — открытая модель для синтеза голоса, которую энтузиасты до сих пор гоняют на домашних машинах. Bark умел подражать интонациям, смеху, вздохам. И именно работа над ним натолкнула команду на мысль: а почему бы не пойти дальше и не научить машину петь?

Идея выглядела сумасшедшей. Ведь синтезировать голос — это одно, а заставить его попадать в ноты, держать ритм и звучать поверх аранжировки — совсем другая история. Задача не из лёгких. Но команда взялась.

Первые версии и публичный запуск

Bark. С него всё и закрутилось по-настоящему. Релиз состоялся весной 2023 года, и именно тогда про Suno впервые заговорили за пределами узкой тусовки исследователей. Модель выложили в открытый доступ, что само по себе — редкость для коммерческого стартапа. Обычно такие наработки держат под семью замками.

Дальше события развивались стремительно. Осенью 2023-го появилась закрытая бета-версия музыкального генератора, а в декабре его интегрировали прямо в Microsoft Copilot — да-да, тот самый ассистент от Microsoft подружился с Suno как раз на этапе, когда большинство пользователей ещё даже не слышали такого названия. Это партнёрство дало проекту колоссальный приток аудитории. Полноценный публичный релиз с поддержкой вокала случился в начале 2024 года — вышла версия V3. Именно она сделала сервис звездой соцсетей.

Кто вложил деньги

Серьёзное вложение в Suno сделали сразу несколько крупных венчурных фондов. Основной раунд финансирования (серия B, май 2024 года) принёс компании 125 миллионов долларов и взвинтил её оценку до отметки около полумиллиарда. Лид-инвесторами выступили Lightspeed Venture Partners, а также Nat Friedman и Daniel Gross — известные в Кремниевой долине ангелы, которые в своё время поддержали немало громких проектов. К слову, среди инвесторов засветился и Matrix Partners.

На что ушли эти деньги? Главным образом на вычислительные мощности. Обучение музыкальной модели — штука прожорливая, требующая тысяч GPU и огромных датасетов. И на расширение команды, разумеется. Хотя даже сейчас штат Suno — это около полусотни человек. По меркам индустрии — мизер.

Технология под капотом

Как устроена эта машинерия? Вся суть в том, что Suno не оперирует нотами в привычном смысле. Модель работает напрямую с аудиоволной, превращая её в последовательность токенов (примерно как ChatGPT работает со словами). Дальше трансформерная архитектура предсказывает, какой кусочек звука должен идти следующим. Так рождаются и мелодия, и вокал, и инструментальная подложка — всё одновременно, в едином потоке.

Отдельно стоит упомянуть языковую часть. Текст песни генерирует отдельная модель, заточенная под рифмы, размер и поэтическую структуру. Потом этот текст «поётся» голосовым модулем, а музыкальный слой подстраивается под него. Звучит просто, но в реальности — это многослойная кухня, где каждая деталь влияет на финальный результат.

Скандалы и судебные тяжбы

Разумеется, такой резкий взлёт не мог пройти без ложки дёгтя. Летом 2024 года крупнейшие музыкальные лейблы — Universal Music Group, Sony Music и Warner Records — подали иск против Suno, обвинив стартап в массовом использовании защищённых авторским правом записей для обучения модели. Суммы претензий — астрономические (до 150 тысяч долларов за каждую композицию). Параллельно аналогичный иск получил конкурент — Udio.

Позиция Suno оказалась неоднозначной. Компания признала, что действительно обучала модель на большом массиве коммерческой музыки, но настаивает: это подпадает под доктрину fair use. Дескать, модель не копирует чужие треки, а учится на них так же, как начинающий музыкант учится, слушая кумиров. Чем закончится тяжба — пока загадка. Процесс идёт, и решение будет прецедентным для всей индустрии генеративного ИИ.

Чем Suno отличается от конкурентов

На рынке сейчас тесновато. Главный соперник — уже упомянутый Udio, основанный бывшими исследователями Google DeepMind. Есть ещё Stable Audio от Stability AI, Meta выпускала MusicGen, Google экспериментирует с Lyria и MusicLM. Но Suno пока солирует — и по качеству вокала, и по простоте интерфейса, и по скорости генерации.

В чём секрет? Во-первых, ставка на полноценные песни, а не на инструментальные зарисовки (этим грешит большинство конкурентов). Во-вторых, очень удачный баланс между сложностью и доступностью. Новичок получает результат за минуту, не разбираясь в промпт-инженерии. В-третьих, регулярные обновления моделей — версии V3, V3.5, V4 выходили одна за другой, и каждая ощутимо прибавляла в качестве.

Бизнес-модель

А как Suno вообще зарабатывает? Классика жанра — фримиум. Бесплатный тариф позволяет сгенерировать несколько треков в день, этого хватит, чтобы поиграться и понять, нужен ли сервис вообще. Платные подписки (от 10 долларов в месяц за Pro-тариф и выше за Premier) открывают коммерческое использование, приоритет в очереди и увеличенные лимиты. Для продюсеров и контент-мейкеров — не сильно ударит по кошельку, особенно если сравнивать со стоимостью студийной записи.

Отдельное направление — партнёрства и API. Компании могут встраивать генерацию музыки в свои продукты, и именно так работает связка с Microsoft. В перспективе — лицензирование технологии для киностудий, игровых разработчиков и рекламных агентств.

Что ждёт проект дальше

Прогнозы — дело неблагодарное, но кое-что уже вырисовывается. Команда активно работает над увеличением длительности треков (сейчас потолок — около восьми минут), улучшением качества вокала и расширением жанровой палитры. Ожидается углубление редакторских возможностей: чтобы пользователь мог не просто получать готовый трек, а точечно править отдельные партии, менять инструменты, переписывать куплеты.

Главный же вопрос — юридический. Если суд встанет на сторону лейблов, всей индустрии придётся перестраивать подход к обучению моделей. А если победит Suno — откроется настоящий шлюз для десятков новых сервисов. Обе стороны медали выглядят интересно, хотя и по-разному.

Стоит ли пробовать самому

Однозначно да. Даже если вы далеки от музыки, сам процесс затягивает — это как конструктор, только звуковой. Музыкантам сервис пригодится для быстрых демо и поиска идей, блогерам — для фоновых треков без забот об авторских правах (в рамках платной подписки), а просто любопытствующим — ради развлечения. Не стоит ждать от Suno уровня Эбби-Роуд, но для большинства задач качества хватает с запасом.

И всё же главное тут — не техника, а люди. История четверых энтузиастов из Кембриджа, собравших за пару лет сервис мирового уровня, заслуживает истинного уважения. Пусть ваши эксперименты со звуком приносят открытия, а первый сгенерированный трек запомнится надолго.