Подробный обзор обновления Suno 5.5: новые функции и качество звука

Музыкальные нейросети ещё пару лет назад вызывали у слушателей снисходительную улыбку — мол, забавная игрушка, не более того. Треки выходили плоскими, вокал «плыл», а инструменты звучали так, будто их записали через подушку. Но индустрия рванула вперёд, и каждый новый релиз Suno стирает грань между «сгенерировано» и «записано в студии». Версия 5.5 — тот самый случай, когда обновление меняет правила игры, а не просто шлифует углы. И разобраться в её начинке стоит хотя бы потому, что многие функции работают совсем не так, как описано в патчноутах.

Что нового под капотом?

Главная интрига обновления — переработанный движок генерации, который команда разработчиков обкатывала ещё с весны. Дело в том, что предыдущая пятая версия страдала от так называемой «ватности» в средних частотах: бочка била глухо, а вокал вяз в общем миксе. В 5.5 этот недуг почти вылечили. Алгоритм научился разделять источники звука ещё на стадии композиции, а не сводить их потом в единое полотно. Звучит это так, будто отдельные дорожки писались в разное время и разными музыкантами — со своим характером, тембром и даже микро-ошибками исполнения. Ну и, конечно же, добавили несколько режимов работы, о которых разработчики предпочли скромно умолчать в официальном анонсе.

Качество звука: что изменилось на самом деле

Тут мнения разделились. Одни пользователи кричат о революции, другие ворчат, что разница слышна только на дорогих наушниках. Истина, как водится, посередине. Если прогнать одинаковый промт через 5.0 и 5.5, разница становится очевидной уже на первых секундах. Верх стал воздушнее — тарелки больше не «пилят», а шуршат, как им и положено. Низ — собраннее, бас перестал гудеть в районе 80–120 Гц. А середина наконец-то задышала: гитары не толкаются локтями с вокалом, фортепиано не тонет под слоем синтезаторов.

К тому же разработчики подкрутили динамический диапазон. Раньше треки звучали сплющенно, как переработанный лимитером поп-шлягер двухтысячных. Сейчас — куда живее.

Stem-разделение и работа с дорожками

Отдельная песня — функция выгрузки стемов. Её обещали давно, и вот она наконец доехала до пользователей среднего тарифа. Что это даёт на практике? Возможность забрать готовый трек не одним монолитным MP3, а кусочками: вокал, барабаны, бас, гармония, прочие инструменты. Каждая дорожка приходит отдельным файлом (в формате WAV, 24 бита). Дальше — полная свобода. Хочешь — затащи в свою DAW и доведи микс под себя. Хочешь — замени барабаны на живые. А если совсем уж дотошный, сможешь перепеть вокал собственным голосом, оставив лишь инструментал.

Punch. Именно этого не хватало раньше. Стемы Suno прежних версий, если их удавалось вытянуть сторонними сервисами, расползались артефактами при малейшей попытке свести по-новому. В 5.5 разделение работает чище. Не идеально — следы алгоритма на сольном вокале при пристальном прослушивании всё-таки всплывают, но для подавляющего большинства задач этого с избытком.

Насколько хорошо работает русский язык?

Вопрос болезненный для отечественной аудитории. И ответ — наконец-то «вполне хорошо». Раньше нейросеть с русскими текстами вытворяла что-то невообразимое: коверкала ударения, проглатывала окончания, а порой выдавала такой акцент, будто пела московская гостья из Бруклина. Сейчас ситуация поменялась. Произношение стало внятным, ударения встают на места в большинстве случаев, а интонационный рисунок куда живее. Хотя и без огрехов не обошлось — сложные слова с шипящими согласными иногда «хрустят», да и редкие термины модель упрямо переворачивает на свой лад. Но в целом разница с предыдущей версией колоссальная.

Persona и Cover — клонирование стиля

Функция Persona появилась чуть раньше, но в 5.5 её серьёзно докрутили. Суть простая: загружаешь свой эталонный трек, а нейросеть запоминает «отпечаток» — манеру вокала, характер аранжировки, общий саунд. И потом пишет новые песни в этой стилистике. Раньше получалась карикатура. Теперь — узнаваемая, но самостоятельная вариация. Безусловно, это открывает дверь к злоупотреблениям, и разработчики ввели жёсткий фильтр на голоса знаменитостей. Впрочем, обходные пути уже находят, и тут всё упирается в этику самого пользователя.

Cover — отдельная история. Сервис умеет брать готовую мелодию и перепевать её в другом жанре. Закидываешь меланхоличную балладу, просишь сделать из неё драм-н-бейс — и получаешь рабочий результат за полторы минуты. Качество? Не студия Abbey Road, конечно, но для черновиков, демо или контента в соцсетях — самое то.

А что с длительностью треков?

Вот тут — приятный сюрприз. Лимит увеличили до восьми минут за одну генерацию (раньше — четыре с небольшим). Казалось бы, пустяк. Но на практике это меняет всё. Прог-рок композиции, эмбиент-полотна, длинные джаз-импровизации — теперь нейросеть тянет их без склеек и неуклюжих переходов. Кстати, режим Extend, продлевающий уже существующий трек, тоже подтянули. Швы между фрагментами стали почти незаметны — раньше их было слышно даже неподготовленному уху.

Подводные камни и ложка дёгтя

Идиллии, разумеется, не получилось. Кладезь новых функций — это здорово, но проблем хватает. Во-первых, генерация стала заметно дольше. Если в 5.0 трек собирался секунд за сорок, то в 5.5 ждать приходится полторы-две минуты. Серверы периодически захлёбываются, и в часы пик очередь растягивается до пяти-семи минут. Во-вторых, кредиты тратятся жаднее: на одну итерацию уходит почти вдвое больше токенов. Кошелёк станет легче, особенно у тех, кто работает в потоке.

Качество, как ни крути, всё ещё нестабильное. Из десяти генераций пять — добротные, три — терпимые, а пара — откровенный брак с обрывами, эхом или каким-то механическим скрежетом на хвосте. Это родовая болезнь всех генеративных моделей, и Suno здесь не исключение.

Кому подойдёт обновление?

На самом деле — почти всем, кто хоть как-то связан с музыкой и контентом. Блогерам, монтажёрам, авторам подкастов, инди-музыкантам, маркетологам. Бьёт по бюджету идея покупать готовые библиотеки роялти-фри треков, а тут — генерируй сколько угодно, лишь бы фантазия позволяла. К слову, для коммерческого использования нужен платный тариф (Pro или Premier), на бесплатном права остаются за сервисом. Об этом нюансе многие забывают, а потом ловят страйки на ютубе.

А профессиональным саунд-продюсерам? Тем тоже найдётся применение — хотя бы как генератор идей. Закинул промт, получил пять заготовок, выбрал любопытную гармоническую прогрессию или ритмический рисунок, утащил в свой проект, развил вручную. Своеобразная креативная разминка, которая может сэкономить часы блужданий по семплам.

Как выжать максимум из 5.5?

Главный секрет — не лениться с описанием. Чем подробнее промт, тем точнее результат. Не стоит ограничиваться сухим «рок-баллада с гитарой». Лучше расписать настроение, темп (например, 92 удара в минуту), эпоху саунда (восьмидесятые с их характерным гейтированным ревером на барабанах), инструментальный состав, даже намекнуть на референсы по атмосфере. Нейросеть это всё считывает и учитывает.

Не стоит перегружать тегами стилей — больше пяти-шести жанровых маркеров модель просто игнорирует или начинает путаться. Лучше один-два жанра плюс описательные прилагательные: «меланхоличный», «обволакивающий», «нервный». А ещё — экспериментируйте с инструментальной версией. Иногда трек без вокала звучит сильнее, чем с ним, особенно если задумка касается фоновой музыки для видео.

Стоит ли переходить с предыдущих версий?

Если вы пользуетесь Suno хотя бы раз в неделю — переходить однозначно стоит. Прирост качества чувствуется уже на третьей-четвёртой генерации, а новые инструменты вроде стемов и расширенного Extend перекрывают неудобства с увеличенным расходом кредитов. Тем более, что старые версии никто не убирает — переключиться обратно можно одним кликом, если конкретная задача требует именно того саунда.

Удачи в творчестве, и пусть каждая новая мелодия, сгенерированная в 5.5, удивляет вас сильнее предыдущей — а инструмент этот, по всему видно, ещё долго будет оставаться на острие индустрии.