История создания и биография проекта Suno: кто стоит за популярной нейросетью

Ещё пару лет назад мысль о том, что обычный человек без музыкального образования сможет за минуту собрать полноценный трек с вокалом, барабанами и припевом, казалась чем-то из области фантастики. А сегодня этим занимаются школьники на переменах, маркетологи в обеденный перерыв и блогеры — прямо в такси по дороге на съёмку. Главным виновником этой тихой революции стал стартап из Кембриджа (штат Массачусетс) — Suno. И чтобы понять, почему именно он выстрелил, а не десятки похожих проектов, стоит разобраться, кто стоит за этой нейросетью и какой путь она прошла от лабораторных экспериментов до сервиса с десятками миллионов пользователей.

Все топовые нейросети в одном месте

«Голоса в машине»

Так, кстати, основатели в шутку называли свои ранние эксперименты. История Suno началась не с музыки в привычном понимании, а со звука как такового. Четверо инженеров — Майки Шульман, Георг Кучко, Мартин Камачо и Кит Хьюм — познакомились ещё во время работы в компании Kensho Technologies, где занимались довольно прозаическими задачами: распознаванием речи и анализом финансовых данных для крупных банков и хедж-фондов. Звучит скучно, но именно там команда набила руку на работе с аудиосигналом. Ведь финансовый аналитик, который диктует отчёт с акцентом и шумом метро на фоне, — задача не из лёгких.

И именно из этого «скучного» опыта выросла идея: а что, если научить модель не только понимать звук, но и порождать его?

Кто такой Майки Шульман

Майки (полное имя — Майкл) Шульман — фигура любопытная. Физик по образованию, он защитил докторскую в Гарварде, занимаясь теоретической физикой высоких энергий. Казалось бы, где квантовые поля, а где поп-музыка. Но сам Шульман в интервью признавался, что музыка для него — давняя любовь, ещё со школьных лет он играл в группах и возился с домашней звукозаписью. Получился редкий гибрид: учёный с сильным математическим аппаратом и одновременно практикующий музыкант-любитель. К слову, именно он стал генеральным директором Suno и публичным лицом проекта. Шульман тяготеет к спокойной, неброской манере общения — никаких громких заявлений в духе «мы убьём музыкальную индустрию», скорее наоборот, аккуратные оговорки про «расширение возможностей для авторов».

Остальная команда

Георг Кучко отвечает за исследовательскую часть и архитектуру моделей. Мартин Камачо — за инженерию и инфраструктуру (а это, на минуточку, обработка миллионов запросов в сутки). Кит Хьюм взял на себя продуктовую сторону — то, как пользователь нажимает кнопку и получает результат. Команда, надо сказать, подобралась довольно сбалансированная: учёный-теоретик, исследователь-практик, инженер-архитектор и продуктовик. Каждый закрывает свой участок, и ни один не дублирует другого. Именно поэтому стартап смог двигаться быстро — без бесконечных совещаний о том, кто за что отвечает.

Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸

Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.

Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL

С чего всё начиналось?

С небольшого инструмента под названием Bark. Это была открытая модель для генерации речи, которую команда выложила в публичный доступ ещё в 2023 году. Bark умел не только говорить разными голосами, но и петь, смеяться, вздыхать, имитировать музыкальные фрагменты. Реакция сообщества разработчиков оказалась бурной — модель быстро разошлась по GitHub, её начали допиливать энтузиасты по всему миру. И тут команда поняла: у людей дикий запрос именно на музыку, а не на синтетическую речь. Речевых синтезаторов и так хватает, а вот доступного генератора песен — нет. На этом инсайте и вырос продукт, который мы сегодня знаем под именем Suno.

Запуск и первая волна интереса

Публичный запуск состоялся в декабре 2023 года. Сначала это была скромная веб-страничка с парой полей: текст песни и описание стиля. Никакой шумной презентации, никаких обещаний перевернуть индустрию — просто работающий сервис. А дальше случилось то, что случается с по-настоящему «вирусными» инструментами. Первые пользователи начали выкладывать треки в соцсети, кто-то сделал партнёрство с Microsoft (интеграция в Copilot подоспела буквально через несколько месяцев), кто-то снял видео с реакцией «как это вообще возможно». И понеслось. К весне 2024 года о Suno писали уже все профильные издания — от The Verge до Rolling Stone.

Чем Suno отличается от конкурентов

Аналогов хватает. Udio, Stable Audio, AIVA, MusicGen от Meta — список можно продолжать. Но есть нюанс. Львиная доля конкурентов делают акцент либо на инструментальной музыке (без вокала), либо требуют от пользователя возни с параметрами и нотами. Suno же сделал ставку на простоту: ввёл строку с описанием — получил песню с куплетом, припевом и осмысленным вокалом.

Качество вокала, к слову, и стало главной изюминкой. Многие считают, что синтезированный голос всегда звучит как робот, но на самом деле модели Suno (особенно версии v3.5 и v4) выдают вокал, который на средних колонках сложно отличить от живого исполнителя.

Особенно если не вслушиваться в окончания слов — там всё-таки иногда «всплывут» артефакты.

Деньги и инвесторы

Без серьёзных вложений такой продукт не построишь. В мае 2024 года Suno привлекла 125 миллионов долларов в раунде серии B. Среди инвесторов засветились Lightspeed Venture Partners, Nat Friedman (бывший CEO GitHub), Daniel Gross и Matrix Partners. Оценка компании на тот момент перевалила за полмиллиарда долларов, а к 2025 году, по слухам из индустрии, приблизилась к миллиарду. Серьёзное вложение для команды, которая ещё пару лет назад умещалась в одной переговорке. Деньги пошли в основном на вычислительные мощности — обучение музыкальных моделей по затратам сравнимо с обучением языковых, а кое в чём и превосходит их.

Скандалы и судебные иски

Без ложки дёгтя не обошлось. Летом 2024 года крупнейшие звукозаписывающие лейблы — Universal, Sony и Warner — подали против Suno (а заодно и против Udio) иск с обвинением в нарушении авторских прав. Суть претензий проста: модель якобы обучалась на миллионах защищённых треков без согласия правообладателей. Команда Suno в ответ не стала юлить — Шульман открыто признал, что модели обучались на «общедоступной музыке из интернета», и квалифицировал это как «добросовестное использование» (fair use). Кто прав в этом споре, решат суды, и решение это, вероятно, повлияет на всю индустрию генеративного аудио. Дело тянется до сих пор и обещает стать прецедентом — таким же громким, как когда-то иски против Napster.

А что внутри?

Технически Suno — это связка нескольких моделей. Одна отвечает за генерацию текста (если пользователь не написал свой), другая — за мелодическую и гармоническую структуру, третья — за непосредственный синтез аудио в виде волны. Подробностей архитектуры команда не раскрывает, но из научных публикаций и редких интервью видно, что в основе лежит трансформерная модель, работающая с дискретными аудио-токенами (нечто похожее на подход EnCodec от Meta). Длительность одного фрагмента в ранних версиях не превышала двух минут, в v4 её довели до четырёх с лишним. Кстати, именно поэтому длинные треки часто склеиваются из нескольких генераций — модели всё ещё тяжело держать единую драматургию на пять-шесть минут.

Все топовые нейросети в одном месте

Сообщество и культура использования

Вокруг сервиса быстро сложилось живое комьюнити. На Reddit, в Discord-серверах и на специализированных форумах люди обмениваются промптами, обсуждают, как заставить модель спеть в стиле раннего Том Уэйтса или поздней Земфиры, делятся неудачами и находками. Появился даже свой жаргон — «сено» (от Suno), «затравка», «дубль». А ещё — целый пласт мемов. Песни про сисадминов, про коммунальные платежи, про кота, который снова разбил вазу, — всё это льётся рекой на YouTube и в TikTok. Кто-то относится к этому с улыбкой, кто-то — с раздражением, мол, заваливают платформы низкокачественным контентом. Обе стороны медали, как говорится, налицо.

Что дальше?

Прогнозы — дело неблагодарное, но кое-что уже понятно. Команда явно движется в сторону интерактивного редактирования: чтобы можно было не просто сгенерировать трек целиком, а переписать одну строчку, заменить инструмент, продлить проигрыш. Версия v4 уже умеет «дорисовывать» загруженные пользователем фрагменты, а функция Covers позволяет переинтонировать готовый трек в другом стиле.

Следующий логичный шаг — полноценная DAW (цифровая рабочая станция) с ИИ-ассистентом внутри. Вопрос лишь в том, как это уживётся с интересами лейблов и живых музыкантов.

Тем более, что напряжение в индустрии нарастает с каждым месяцем.

Стоит ли пробовать?

Однозначно стоит — хотя бы ради любопытства. Бесплатный тариф позволяет сгенерировать около десяти треков в день, чего вполне хватит, чтобы понять, ваше это вообще или нет. Не стоит ждать от сервиса шедевра уровня Эбби-Роуд, но для джингла, поздравительной песни маме на юбилей или фоновой дорожки под видеоролик — самое то. И не нужно бояться экспериментов с жанрами: чем неожиданнее запрос, тем интереснее результат. Желаю вам найти в Suno собственный звук — тот самый, который давно крутился в голове, но никак не складывался в ноты. А теперь, глядишь, и сложится.