Обновление Suno 3.5: главные фишки и заметное улучшение качества вокала

Ещё пару лет назад мысль о том, что нейросеть сможет написать полноценный трек с живым вокалом за минуту, казалась фантастикой из разряда «когда-нибудь потом». А сегодня сервис Suno выкатывает уже третью с половиной версию своей модели, и музыкальное сообщество разделилось на два лагеря: одни в восторге, другие ворчат, что «всё, профессия композитора мертва». Истина, как водится, где-то посередине. Но чтобы разобраться без эмоций, стоит спокойно разложить по полочкам, что именно поменялось под капотом новой версии.

Что вообще случилось?

Коротко — разработчики из Suno AI выкатили свежую итерацию генеративной модели, которую обозначили индексом V3.5. Произошло это довольно буднично, без громких анонсов на конференциях, но эффект ощутили все активные пользователи платформы. Прежняя «тройка» уже умела многое, однако хватало и слабых мест: обрывистые концовки, каша в припевах, вокал, звучащий будто сквозь подушку. В обновлении инженеры сфокусировались именно на болевых точках, а не на косметических правках. И это чувствуется с первой же генерации. Ведь по ощущениям это не столько апгрейд, сколько работа над ошибками. Довольно серьёзная, к слову.

Длина трека: от минуты к полноценному формату

Самое заметное изменение — хронометраж. Раньше за одну генерацию удавалось выжать около двух минут музыкального материала, и этого вечно не хватало. Теперь же максимальная длина одного фрагмента выросла до четырёх минут. Много это или мало? Для стандартной поп-композиции с куплетом, припевом, бриджем и финальным проигрышем — вполне достаточно.

Не нужно больше клеить куски через функцию «Extend», молясь, чтобы модель не потеряла тональность на стыке. А если и нужно продлить — склейки стали заметно аккуратнее.

Там, где в прежней версии ухо цеплялось за микропаузу или смену тембра, сейчас всё течёт плавно. Почти как у человека. Почти.

Насколько вырос вокал?

Вот здесь самое интересное. Голос — ахиллесова пята всех музыкальных нейросетей последнего поколения. Прежние версии грешили характерным «бульканьем» на согласных, проглатыванием окончаний и странным акцентом, откуда бы ни взялся исполнитель. В V3.5 вокал стал внятнее на порядок. Дикция вытянулась, гласные звучат полноценно, а шипящие перестали превращаться в цифровой шум. Появилась и эмоциональная окраска: модель начала «дышать», делать микропаузы перед важными строчками, вытягивать ноты на концах фраз. Ложка дёгтя всё же есть — на сложных вокальных партиях (быстрый рэп, высокие ноты в оперном стиле) артефакты ещё вылезают. Но это редкость, а не правило.

Понимание жанра и структура песни

Раньше написать, скажем, настоящий дроун-метал или аутентичное фаду было проблематично — модель тяготела к усреднённому поп-звучанию. Сейчас Suno заметно лучше ловит жанровые нюансы. Просишь босса-нову — получаешь мягкий нейлоновый бой гитары и характерный размер, а не условную «латину вообще». Запрос на индастриал выдаёт жёсткие сэмплы и рваный ритм, а не причёсанный рок. Особенно порадовало то, как модель стала работать со структурой композиции. Куплет отделён от припева, бридж действительно звучит как бридж — с модуляцией и сменой настроения, а не просто как ещё один куплет с другими словами. Это же здорово, когда ИИ понимает драматургию, а не лепит однообразное полотно.

Тонкая работа с инструментами

Отдельно стоит упомянуть проработку аранжировки. Инструменты перестали сливаться в единую кашу — у каждого появилось своё место в миксе. Бас отчётливо слышен в нижнем регистре, ударные дышат, а гитарные партии не забивают вокал. Добротная, живая аранжировка получается даже из коротких текстовых подсказок. К тому же стало заметно меньше артефактов при использовании акустических тембров. Струнные звучат как струнные, а не как синтезаторная пародия на них. С духовыми дело обстоит сложнее — саксофон всё ещё иногда выдаёт себя характерным «жужжанием», но прогресс налицо. Чувствуется, что разработчики много работали именно с тембральной достоверностью.

Стоит ли переходить на V3.5?

Коротко — да. Длинно — смотря зачем. Если вы балуетесь от случая к случаю, генерируете треки для смеха или фона, то и старой «тройки» хватало за глаза. Но для тех, кто хочет получать на выходе материал, пригодный к дальнейшему использованию (фоновая музыка для видео, демо для будущей аранжировки, джинглы), апгрейд реально меняет расклад.

Единственный нюанс — новая версия доступна только платным подписчикам в полной мере, а бесплатный тариф получает её с оговорками по лимитам.

Сильно ли это ударит по кошельку? Не особо, подписка стоит в рамках стандартного сервиса вроде стриминга. Так что серьёзного вложения не потребуется, а возможностей прибавилось внушительно.

Подводные камни обновления

Не обошлось и без шероховатостей, куда же без них. Во-первых, модель стала «тяжелее», и генерация порой занимает чуть больше времени — секунд на двадцать-тридцать дольше прежнего. Мелочь, но привыкшие к быстрому отклику пользователи жалуются. Во-вторых, V3.5 иногда «перестаралась» с выразительностью вокала: в балладах может появиться избыточное вибрато, в рок-треках — нарочитый хрип там, где его не просили. Лечится это точной настройкой промпта и указанием конкретных исполнительских манер. Ну и, конечно, никуда не делись проблемы с редкими языками. Русский, к слову, звучит достойно, но всё ещё уступает английскому по естественности произношения. Впрочем, разрыв сокращается от версии к версии.

Как получить максимум от новой версии?

Несколько простых соображений, которые помогут раскрыть возможности модели. Прежде всего — не стоит экономить на описании. Чем подробнее и конкретнее промпт (жанр, темп в BPM, инструменты, настроение, референсы), тем точнее результат. Сухое «весёлая песня про лето» выдаст усреднённый продукт, а развёрнутое описание с указанием «акустическая гитара, мягкий мужской тенор, темп 95 BPM, настроение ностальгии» творит чудеса. Не стоит перебарщивать с тегами в квадратных скобках — их избыток сбивает модель с толку. И не забудьте проверить структуру текста: разметка куплетов и припевов через [Verse] и [Chorus] реально помогает сервису понять архитектуру будущего трека. А если с первого раза не вышло — не беда. Перегенерировать с небольшими правками промпта — нормальная практика даже у опытных пользователей.

Что дальше?

Судя по темпам, с которыми команда Suno выпускает апдейты, версия 4.0 не за горами. Уже сейчас в тестовых ветках мелькают намёки на ещё более длинные треки, стерео-разделение голоса и инструментов (для удобства микширования), а также работу со стемами — раздельными дорожками, которые можно крутить в любом DAW.

Буквально год назад это казалось недостижимой мечтой, а сейчас — вопрос пары релизов. Индустрия меняется на глазах, и смысла сопротивляться этому нет.

Лучше освоить инструмент первым, чем догонять поезд, когда он уже уйдёт.

Музыкальные нейросети перестали быть игрушкой для гиков — они становятся рабочим инструментом, с которым приходится считаться и продюсерам, и композиторам, и простым любителям. Обновление 3.5 — отличный повод попробовать сервис тем, кто раньше скептически морщился, слушая ранние демо. Удачи в экспериментах, пусть ваши треки звучат так, как задумывались, а муза не покидает ни вас, ни алгоритмы!