Какие нейросети круче Suno: топ альтернатив для генерации музыки

Ещё пару лет назад мысль о том, что текстовая строчка превратится в полноценный трек с вокалом, припевом и битом, казалась фантастикой из разряда «когда-нибудь потом». А сегодня этим балуется чуть ли не каждый второй блогер, маркетолог и просто скучающий пользователь. Suno громко ворвалась на сцену и стала почти именем нарицательным — этакий «ксерокс» в мире ИИ-музыки. Но действительно ли она лучшая? На самом деле, конкурентов уже набралось столько, что впору устраивать отдельный фестиваль. И некоторые из них в отдельных задачах кроют Suno как бык овцу.

Чем вообще плоха Suno?

Платформа хороша. Спорить глупо. Генерирует за минуту, поёт почти по-человечески, понимает жанры от лоу-фая до металкора. Но ложка дёгтя есть. Во-первых, английский язык она тянет блестяще, а вот с русским вокалом то и дело всплывают забавные акценты и «каша» в произношении. Во-вторых, длина композиции ограничена, и склейка частей нередко слышна — словно швы на дешёвом пиджаке. В-третьих, тонкой настройки маловато: ты задаёшь стиль, а нейросеть решает сама, как именно «прочитать» твой запрос. Для готового хита этого мало. Поэтому многие практикующие музыканты ищут что-то поглубже.

Udio — главный соперник по вокалу

Udio. Имя, которое в музыкальных пабликах уже трепят чаще, чем имя бывшего. Стартап основали выходцы из Google DeepMind, и слышно это сразу — вокал звучит чище, дыхание более естественное, а высокие ноты не превращаются в писк циркулярной пилы. Особенно хорошо Udio справляется с роком, соулом и поп-балладами. Что насчёт минусов? Бесплатная квота скромная (порядка 600 генераций в месяц), а длина одного фрагмента — около 32 секунд, который потом нужно «дотягивать» функцией extend.

По вокалу Udio — это, пожалуй, лучшее, что сейчас доступно широкой публике. Кстати, сервис неплохо понимает русский, если в промте указать фонетику латиницей.

Stable Audio: для тех, кому слова не нужны

А вот тут интересно. Stable Audio от Stability AI — это не про песни. Это про инструменталки, эмбиент, лупы, саундтреки и звуковые текстуры. Нужен фоновый трек для ютуб-ролика? Гул космической станции? Барабанная сбивка в стиле афро-фанка? Сюда. Сетка не умеет петь, и в этом её сила: вся вычислительная мощь брошена на чистоту инструментов и реалистичность тембров. Студийные продюсеры берут Stable Audio как «генератор идей», когда вдохновение пробуксовывает. К тому же, лицензия позволяет использовать результат коммерчески — что для многих становится спасательным кругом.

Можно ли управлять стилем точнее?

Можно. И тут на сцену выходит AIVA — старожил рынка, появившийся ещё в 2016 году, когда о Suno никто и не слышал. AIVA заточена под классику, кино- и игровые саундтреки. Сервис умеет работать с MIDI, экспортирует партитуры, позволяет редактировать каждую дорожку отдельно. Это уже не игрушка «нажми кнопку — получи трек», а полноценная мастерская. Композиторы, пишущие музыку для коротких метров и инди-игр, AIVA откровенно обожают. Ну и, конечно же, бонус для перфекционистов: можно загрузить собственный референс, и нейросеть будет ориентироваться именно на него.

Mubert: бесконечный поток для стримеров

Задача не из лёгких — найти музыку, которую можно крутить часами и не получить страйк за авторские права. Mubert решает её элегантно. Сервис генерирует бесконечные потоки в выбранном жанре — лоу-фай для учёбы, техно для тренировки, чилл для медитации. Качество не дотягивает до Udio, но цель совсем иная. Mubert — это музыкальный фон, который никогда не повторится. Для твичеров, ютуберов и владельцев кофеен — настоящий клад. Тем более, что есть API, и поток можно встроить хоть в собственное приложение.

Riffusion и эксперименты со спектрограммами

Любопытная штука. Riffusion поначалу кажется чудаковатой: она генерирует не звук напрямую, а картинки-спектрограммы, которые потом превращаются в аудио. Звучит как махинации фокусника, но работает. Сильная сторона — необычные текстуры, эксперименты с переходами между жанрами, хип-хоп, который плавно перетекает в дрим-поп. Недостаток — короткая длительность и местами «грязный» звук. Riffusion — это про творческий поиск, а не про чистый коммерческий продукт. Но в качестве источника свежих идей она творит чудеса.

Suno против всех: где она всё-таки выигрывает?

Справедливости ради. Универсальность — это её конёк. Хочешь панк-рок на татарском? Колыбельную в стиле дэт-метала? Рекламный джингл за минуту? Suno справится, пусть и с шероховатостями. Ни одна другая платформа не предлагает такой широкий жанровый охват с такой скоростью. К тому же, интерфейс прост до неприличия — освоит даже школьник.

Профи давно работают связкой: идея в Suno → доработка вокала в Udio → инструментал из Stable Audio → сведение в обычном DAW. Вот такой коктейль и даёт результат, который не стыдно выложить на стриминги.

А что с русскоязычными сервисами?

Тут история неоднозначная. Mubert вырос из российской команды, хотя сейчас работает глобально. Яндекс экспериментирует с генеративной музыкой внутри своих сервисов, но открытого продукта пока нет. Сбер показывал прототипы, однако массового релиза тоже не случилось. Поэтому, если нужен качественный русский вокал, обходные пути всё ещё в ходу: пишешь промт на английском, потом перепеваешь поверх своим голосом или через клон-вокал в RVC. Способ кропотливый, но рабочий. Да и результат порой превосходит то, что выдаёт Suno «из коробки».

Сколько это стоит на самом деле?

Бесплатные тарифы есть почти везде, но они быстро упираются в лимиты. Suno даёт около 50 генераций в день на бесплатном плане, платная подписка стартует от 8 долларов. Udio — схожая модель. AIVA для некоммерческого использования вообще даром, а Pro-версия обойдётся в районе 33 евро в месяц. Stable Audio и Mubert тоже работают по подписке. Серьёзное вложение? Не сказать. Кошелёк не сильно похудеет, особенно если сравнивать со студийной записью живых музыкантов, где один час работы скрипача может стоить как годовая подписка на любую из этих сеток.

На что обратить внимание при выборе?

С чего начинается грамотный выбор? С честного ответа на вопрос: «Что я вообще хочу получить?». Если песню с вокалом для соцсетей — Suno или Udio. Если фоновый эмбиент для медитации — Mubert. Если оркестровый саундтрек для короткометражки — AIVA. Если экспериментальные текстуры — Riffusion. Если коммерческий инструментал без головной боли с правами — Stable Audio. Не стоит цепляться за одну платформу. Гораздо разумнее держать в арсенале две-три и переключаться по задачам. Тем более, что регистрация везде занимает пару минут.

Подводные камни, о которых молчат

Авторские права — больной вопрос. Каждая платформа трактует их по-своему. У Suno и Udio права на трек переходят пользователю только на платных тарифах, и то с оговорками. Stable Audio в этом плане честнее. Второй нюанс — обучающие датасеты. Часть моделей училась на защищённой музыке, и судебные иски уже посыпались. Чем это обернётся через год-другой — никто толком не знает.

Если планируется коммерческое использование, не стоит забывать читать пользовательское соглашение. Скучно? Да. Но потом всплывут проблемы, которые легче предотвратить, чем разгребать.

Каким будет следующий шаг индустрии?

Прогнозы — дело неблагодарное, но кое-что уже бросается в глаза. Во-первых, точность управления вырастет: сетки научатся понимать не «сделай грустно», а «сделай минор с задержкой на третьей доле и виолончелью во втором куплете». Во-вторых, появится нормальная интеграция с DAW — Ableton, FL Studio, Logic. В-третьих, голосовое клонирование станет легальнее и доступнее: артисты сами начнут продавать «лицензии на свой тембр». Это уже происходит — Grimes первой открыла свой голос для ИИ-каверов и получает с них роялти. Бомонд подтянется следом, никуда не денется.

Удачи в музыкальных экспериментах — пробуйте, миксуйте, не привязывайтесь к одному инструменту, и пусть очередной трек, рождённый из пары строчек промта, неожиданно соберёт тысячи прослушиваний и подарит то самое чувство, ради которого всё это и затевается.