Как работает нейросеть для создания песни Suno AI: секреты генерации

Ещё пару лет назад фраза «напиши мне песню за минуту» звучала как шутка на дружеской вечеринке, а сегодня — обыденность. Человек без музыкального образования, без гитары в руках и без студии за спиной получает готовый трек с вокалом, битом и даже припевом, который застревает в голове. Suno AI довольно уверенно отобрал у профессионалов часть магии, окутывавшей процесс сочинительства. Но как эта машина вообще умудряется петь голосом, похожим на человеческий, складывать рифмы и попадать в ритм? А начать стоит с того, что под капотом у сервиса — не один алгоритм, а целый оркестр нейросетей, каждая из которых отвечает за свой участок работы.

Что такое Suno AI простыми словами

Suno — это сервис, запущенный командой бывших инженеров Kensho и Meta, и его задача звучит обманчиво просто: превратить короткий текстовый запрос в законченную песню. Никаких сэмплов загружать не надо, никаких виртуальных инструментов расставлять по дорожкам. Пишешь что-то вроде «грустный инди-рок про осень и расставание в Питере» — и через сорок-пятьдесят секунд получаешь двухминутный трек. Звучит как фокус, но на деле — результат сложнейших вычислений, крутящихся на серверных фермах где-то в Вирджинии. К слову, сама компания не особо распространяется о точной архитектуре, но по патентам, интервью и техническим утечкам картина складывается довольно внятная. И она куда интереснее, чем принято думать.

Из каких кирпичиков собран движок

Внутри Suno работают сразу несколько моделей, и каждая делает свою партию. Первая отвечает за текст — за тот самый стихотворный слой, который потом споёт виртуальный вокалист. Вторая занимается музыкальной подложкой: гармонией, ритмом, тембрами. Третья — самая хитрая — превращает абстрактные звуковые токены в реальный аудиофайл, который уши воспринимают как песню, а не как шум.

Нужно отметить, что именно связка этих трёх слоёв и творит чудеса. Одной LLM для такого мало. Одного аудиодекодера тоже. Магия — на стыке.

Как нейросеть вообще «понимает» музыку?

Вопрос, который задают чаще всего. Ответ довольно неожиданный: она её не слышит в человеческом смысле. Музыка для модели — это последовательность чисел, токенов, упакованных аудиокодеком наподобие EnCodec или SoundStream. Грубо говоря, секунда звука разбивается на сотни крошечных «слов», каждое из которых описывает, что происходит в спектре в конкретный момент. Дальше нейросеть работает с этими токенами так же, как языковая модель работает с текстом: предсказывает следующий на основе предыдущих. Отсюда и характерная для Suno манера — продолжать мелодию логично, но с лёгкими сюрпризами.

Текстовый блок: как рождаются стихи

Лирика — отдельная история. За неё отвечает языковая модель, обученная на огромном корпусе песенных текстов: от блюза сороковых до современного трэпа. Она не просто выдаёт рифмованные строчки, а старается соблюсти структуру: куплет, предприпев, припев, бридж. Ведь песня без припева — это уже не песня, а так, музыкальная зарисовка. Модель учитывает жанр, настроение и даже просодию — то есть то, как слова лягут на ритм. Пользователь может подсунуть свой текст, и тогда движок переключается в режим «озвучить написанное», подгоняя мелодию под ударения и слоги. А может доверить всё нейросети — и тогда на выходе порой выскакивают такие метафоры, что хоть в сборник печатай.

Аудио-движок и токенизация звука

Вот здесь начинается самое любопытное. Обычный mp3-файл весит мегабайты, а в секунде — около 44 тысяч отсчётов. Напрямую с таким потоком ни одна нейросеть работать не станет — задохнётся. Поэтому звук сжимают в последовательность дискретных токенов: примерно 75 штук в секунду, иногда меньше. Это похоже на то, как jpeg сжимает картинку, только здесь сжатие «умное», нейросетевое. Модель-генератор предсказывает эти токены один за другим, а потом отдельный декодер разворачивает их обратно в звуковую волну. Процесс не мгновенный, но и не медленный — полноценный трек собирается за сорок-шестьдесят секунд, что по меркам музыкальной индустрии просто фантастика.

Вокал: откуда берётся голос

Самая болезненная тема для слушателей. Голос в Suno звучит живо, с придыханиями, с лёгкой хрипотцой, иногда даже с характерными «ломками» на высоких нотах. Как так? Дело в том, что вокал не склеивается из готовых семплов чьего-то голоса, как в старых программах типа Vocaloid. Он синтезируется целиком, вместе с инструментальной частью, в едином звуковом потоке.

Модель училась на миллионах часов записей, улавливая не конкретные тембры, а обобщённые закономерности — как именно человек тянет гласные, где берёт дыхание, как меняет интонацию в припеве. Отсюда и ощущение реального певца.

Хотя, если прислушаться, на третьем-четвёртом повторе вылезают артефакты: смазанные согласные, странное эхо, проглоченные окончания. Ложка дёгтя в бочке мёда, но с каждой новой версией её всё меньше.

Роль промпта: почему одно слово меняет всё

Промпт — это не просто описание, а почти дирижёрская палочка. Стоит поменять «сад камней» на «сад под дождём», и аранжировка тянется совсем в другую сторону. Модель ловит жанровые маркеры: слова «лоу-фай», «босса-нова», «синти-поп» работают как ключи к определённым кластерам в её памяти. Чем конкретнее запрос, тем предсказуемее результат. «Весёлая песня» даст усреднённую попсу, а «акустический фолк с банджо, мужским хриплым вокалом, темп около 110 ударов» — уже почти готовое ТЗ для сессионного музыканта. Кстати, именно поэтому опытные пользователи пишут промпты длиной в абзац, перечисляя инструменты, настроение, референсы и даже страну происхождения стиля.

Стили и жанры: широта охвата

Диапазон того, что умеет сервис, довольно внушительный. К первой группе относятся привычные поп, рок, хип-хоп, электроника — тут качество стабильно высокое, потому что обучающих данных море. Далее следует этника: индийский классический вокал, ирландские джиги, балканские духовые — здесь модель справляется неплохо, но с характерными огрехами. Отдельно стоит упомянуть экзотику вроде горлового пения или оперной арии — вот с ними Suno пока воюет, результат получается то блестящим, то откровенно кривым. Ну и, наконец, гибриды: «дабстеп-романс на старославянском» или «джаз-мануш про программистов» — именно такие запросы и раскрывают реальные возможности нейросети, потому что в её базе ничего похожего раньше не существовало.

Почему иногда получается шедевр, а иногда — каша

Стабильности у генеративных моделей нет. И не будет — во всяком случае, пока. Вся суть в том, что на каждом шаге нейросеть выбирает следующий токен не однозначно, а с элементом случайности (это называется температурой сэмплирования). Чуть выше температура — и модель уходит в эксперимент, выдаёт необычные ходы, но рискует сорваться в хаос. Чуть ниже — и получается скучный, предсказуемый трек «как у всех». Баланс между новизной и связностью — главная головная боль разработчиков.

Отсюда и совет бывалых: не стоит удовлетворяться первой же генерацией. Сделайте три, пять, десять попыток с одним и тем же промптом. Нужный вариант всплывёт.

Обучение модели: на чём она выросла

Здесь разработчики хранят молчание почти религиозное. Точные объёмы датасета не раскрываются, но по косвенным признакам речь идёт о миллионах треков, стянутых из открытых источников, лицензионных библиотек и, вероятно, не только оттуда. Именно из-за этого туманного момента Suno уже схлестнулась в суде с крупными лейблами — RIAA подала иск летом 2024-го, обвинив сервис в использовании защищённых записей. Чем закончится эта история — пока непонятно, но на саму технологию суды вряд ли повлияют: модель уже обучена, веса сохранены, джинн из бутылки выпущен. А значит, любой запрет сработает скорее как тормоз, чем как стоп-кран.

Секреты быстрой генерации

Полноценный трек собирается меньше чем за минуту, и это не магия, а инженерная оптимизация. Во-первых, модель работает не с самим звуком, а с теми самыми сжатыми токенами — их на порядки меньше, чем сырых отсчётов. Во-вторых, используется параллельное декодирование: разные участки песни просчитываются одновременно на разных GPU. В-третьих, применяется кэширование промежуточных состояний — то есть нейросеть не пересчитывает с нуля то, что уже поняла. Ну и, конечно же, серверная инфраструктура на базе A100 и H100 делает своё дело. Любительский компьютер такое потянуть не сможет. Да и не должен.

Подводные камни генерации

Не всё так радужно. Главная проблема — связность длинных композиций. Трек на полторы минуты модель вытягивает уверенно, а вот пятиминутная эпопея уже начинает плыть: мелодия теряет развитие, припев звучит иначе, чем в начале, вокалист будто меняется местами с самим собой. Вторая сложность — тексты на «не-английских» языках. Русский Suno освоил прилично, но с ударениями и падежами всё ещё случаются курьёзы. Третья беда — инструментальные соло: гитарная импровизация в исполнении нейросети нередко звучит как набор случайных нот, пусть и в правильной тональности. Впрочем, всё это лечится апдейтами, и от версии к версии прогресс довольно заметный.

Кому и зачем это нужно?

Вопрос не праздный. Ведь профессиональные композиторы поначалу восприняли Suno в штыки — и их можно понять. Но на деле инструмент занял свою нишу. Блогеры лепят джинглы для роликов, инди-разработчики собирают саундтреки к играм за копейки, маркетологи пекут рекламные мотивы пачками. Кто-то дарит близким именные песни на день рождения — и это, пожалуй, самое трогательное применение. А ещё нейросеть стала отличной песочницей для авторов: можно за вечер проверить десяток музыкальных идей, не поднимая студию. Серьёзное подспорье, хотя и не замена живому таланту.

Чего ждать дальше

Развитие идёт стремительное. Буквально год назад Suno выдавала короткие заготовки в сомнительном качестве, а сейчас — полноценные радиоформатные треки с чистым миксом. Следующий рубеж — управляемость: пользователь должен получить возможность точечно править отдельные ноты, менять гитарное соло, переписывать одну строчку без пересборки всего файла. Разработчики над этим работают, и первые функции редактирования уже появляются. Параллельно будет расти качество вокала, а длина треков наконец-то перестанет ограничиваться двумя минутами.

Профессиональная индустрия, конечно, никуда не денется — живой музыкант с живой историей за плечами всё равно переиграет алгоритм по эмоциональной глубине. Но и у нейросети своя роль есть, и она только укрепляется.

Если хочется попробовать самому — не стоит сразу ломиться в сложные жанры, лучше начать с простого: поп-баллада, акустический фолк, электронная танцевалка. Промпт пишите подробно, не экономьте на деталях, экспериментируйте с формулировками. И пусть первая же ваша сгенерированная песня запомнится надолго.