Как сгенерировать брутальный вокал в Suno: советы мужчинам

Грубый мужской голос в музыке всегда приковывал внимание — от хриплого рыка Лемми Килмистера до утробного гроула скандинавских дэт-металистов. Буквально пару лет назад, чтобы записать подобный вокал, нужна была студия, микрофон за несколько сотен долларов и, собственно, глотка, способная выдержать такие нагрузки. А сейчас нейросеть Suno генерирует треки с вокалом за считанные минуты, и львиная доля пользователей — мужчины, которые грезят о собственном брутальном звучании, но не обладают ни вокальными данными, ни студийным оборудованием. Однако между «нажать кнопку и получить шедевр» и «скрупулёзно настроить промт, чтобы нейросеть выдала именно тот рык» — пропасть, которую стоит преодолеть с пониманием дела.

Что вообще понимать под «брутальным вокалом»?

Само слово «брутальный» в контексте музыки довольно размытое. Для одного это хриплый баритон в духе Джонни Кэша, для другого — гроулинг на грани человеческих возможностей, а третий подразумевает агрессивный рэп-речитатив с низким тембром. Suno же работает с текстовыми описаниями, и нейросети всё равно, что именно вы вкладываете в понятие «брутальность» — она ориентируется на конкретные слова в промте. Вся суть в том, что без точного описания желаемого результата алгоритм пойдёт по пути наименьшего сопротивления и выдаст нечто усреднённое. Не злое. Не хриплое. Просто мужской голос средней тональности. Поэтому начать нужно с определения того стиля брутальности, который вам ближе, и уже от него выстраивать всю цепочку настроек.

Без точного описания желаемого результата алгоритм пойдёт по пути наименьшего сопротивления и выдаст нечто усреднённое. Не злое. Не хриплое. Просто мужской голос средней тональности.

К первой группе тяготеет так называемый «грязный рок-вокал» — хрипловатый, с надрывом, словно певец прокурил голос за тридцать лет гастролей по барам. Следующий тип — гроулинг и скриминг, то есть экстремальный вокал, характерный для дэт-метала и блэк-метала. Отдельно стоит упомянуть низкий речитатив с агрессивной подачей, который ближе к хип-хопу и индастриалу. Ну и, наконец, «командирский» баритон — глубокий, властный, без явного рыка, но с ощутимым давлением в каждой ноте. Каждый из этих типов требует своего набора тегов и стилистических указаний в Suno, и путать их между собой — верный способ получить кашу на выходе.

Промт — ваш главный инструмент

Нюанс работы с Suno в том, что нейросеть не читает мысли. Она читает теги. И от того, насколько грамотно составлен текстовый промт, зависит буквально всё — от тембра голоса до манеры подачи. Многие считают, что достаточно написать «brutal male vocal» и дело сделано, но на самом деле такой запрос даёт непредсказуемый результат. Иногда приличный. Чаще — нет.

Стоит задуматься о структуре промта как о рецепте блюда: каждый ингредиент вносит свою лепту. Первым делом указывается жанр — и тут не стоит ограничиваться одним словом. Вместо просто «metal» гораздо эффективнее работает связка вроде «death metal, heavy, aggressive». Далее следует описание вокала, и вот тут начинается самое интересное. Suno хорошо реагирует на такие дескрипторы, как «deep growl», «raspy male voice», «guttural vocals», «screaming», «low-pitched aggressive singing». К тому же нейросеть понимает эмоциональные маркеры: «angry», «dark», «menacing», «powerful». Дело в том, что алгоритм обучался на огромном массиве музыки с метаданными, и чем точнее ваши теги совпадают с этими метаданными, тем ближе результат к ожиданиям.

Стоит ли писать промт на русском?

Короткий ответ — нет. Ведь Suno обучалась преимущественно на англоязычных описаниях музыки, и русскоязычные теги она обрабатывает значительно хуже. Даже если вы хотите получить трек с русским текстом песни, стилистические указания и описание вокала лучше давать на английском. Это не прихоть, а практический вывод, к которому пришли тысячи пользователей методом проб и ошибок. Впрочем, сам текст песни (lyrics) на русском Suno воспроизводит вполне сносно, хотя с произношением бывают забавные казусы — нейросеть иногда глотает окончания или ставит ударения не туда. Но это уже совсем другая история.

Секреты тегов для разных типов брутальности

Грязный рок-вокал. Для этого звучания хорошо работает комбинация тегов «raspy male vocals, southern rock, blues rock, gritty, raw, whiskey voice». Последний дескриптор — настоящая изюминка, потому что Suno ассоциирует «whiskey voice» с вполне конкретным тембром: низким, чуть надтреснутым, с характерной хрипотцой. Кстати, добавление тега «live recording» или «lo-fi» иногда творит чудеса — звук становится менее «вылизанным», более живым, и вокал приобретает ту самую шероховатость, которой так не хватает стерильным нейросетевым генерациям.

Suno ассоциирует «whiskey voice» с вполне конкретным тембром: низким, чуть надтреснутым, с характерной хрипотцой. Добавление тега «live recording» иногда творит чудеса.

Экстремальный вокал. Тут дело обстоит сложнее. Suno умеет генерировать гроулинг, но результат довольно нестабильный — из десяти попыток по-настоящему убедительными получаются две-три. Теги, которые дают наилучший результат: «death metal, guttural vocals, deep growl, blast beats, heavy distortion». Нужно отметить, что добавление «blast beats» влияет не только на ударные, но и косвенно на вокал — нейросеть «понимает», что при таком темпе и стиле голос должен быть максимально агрессивным. А вот тег «black metal screaming» работает иначе: вместо низкого рыка вы получите высокий, пронзительный скрим. Обе стороны медали экстремального вокала доступны, но смешивать их в одном промте не стоит — алгоритм запутается.

Агрессивный речитатив. Для тех, кто тяготеет к хип-хопу с тяжёлым звучанием, подойдут теги «aggressive rap, deep male voice, trap metal, dark beat, intense delivery». Само собой, тут важен и темп — Suno позволяет указывать BPM, и для агрессивного речитатива оптимальный диапазон лежит где-то между 140 и 160 ударами в минуту. Медленнее — и подача теряет напор. Быстрее — и слова начинают сливаться в неразборчивую кашу.

Как работать с разделом lyrics?

Текст песни в Suno — это не просто слова, которые нейросеть озвучит. Это ещё один слой управления вокалом. В квадратных скобках перед строфами можно размещать так называемые «инструкции сцены» — и вот тут открывается настоящий кладезь возможностей. Например, пометка [Aggressive Growl] перед куплетом заставит нейросеть переключиться на более тяжёлую подачу. А [Whispered Verse] перед бриджем создаст контраст — тихий, почти шёпотный фрагмент, после которого взрыв припева прозвучит ещё мощнее.

Стоит отметить, что Suno реагирует и на структурные метки: [Verse], [Chorus], [Bridge], [Outro]. Но мало кто знает, что можно комбинировать структуру с вокальными указаниями. Скажем, [Verse — Deep Raspy Voice] или [Chorus — Screaming, High Energy]. Это не гарантирует стопроцентного попадания, но заметно повышает шансы. Ведь без таких пометок нейросеть сама решает, где кричать, а где петь мягко, и её выбор далеко не всегда совпадает с вашим замыслом.

Почему с первого раза ничего не получается?

Задача не из лёгких. И это нормально. Даже опытные пользователи Suno признают, что на один удачный трек приходится от пяти до пятнадцати неудачных генераций. Дело в том, что нейросеть работает с элементом случайности — каждый раз, даже при идентичном промте, результат будет немного отличаться. Иногда эта разница минимальна, а иногда вместо ожидаемого рыка вы получаете что-то среднее между оперным баритоном и детским хором. Зрелище — точнее, звучание — удручающее.

Не стоит отчаиваться после первых пяти попыток. Профессионалы нейромузыки (да, такой термин уже прижился) рекомендуют генерировать по десять-двадцать вариантов на один промт, а потом отбирать лучшие. К тому же в Suno есть функция «Extend» — можно взять удачный фрагмент и продолжить его, сохранив тембр и стиль вокала. Это спасательный круг для тех случаев, когда первые тридцать секунд звучат идеально, а дальше нейросеть «сползает» в другую тональность или манеру.

Настройки, о которых забывают

Температура генерации. Многие обыватели даже не подозревают, что в продвинутых режимах Suno можно влиять на «температуру» — параметр, отвечающий за степень случайности. Высокая температура даёт более непредсказуемые, экспериментальные результаты. Низкая — более стабильные, но и более «скучные». Для брутального вокала золотая середина лежит чуть выше среднего значения: достаточно хаоса, чтобы голос звучал живо и агрессивно, но не настолько, чтобы трек превратился в бессвязный шум.

Опытные пользователи собирают трек по частям: генерируют куплет, проверяют, генерируют припев отдельно, а потом склеивают в аудиоредакторе. Процесс не сложный, но кропотливый.

Ещё один подводный камень — длительность трека. Suno генерирует фрагменты определённой продолжительности, и на коротких отрезках (до минуты) вокал обычно стабильнее. На длинных — нейросеть начинает «дрейфовать», менять тембр, иногда даже переключаться с мужского голоса на женский. Поэтому опытные пользователи собирают трек по частям: генерируют куплет, проверяют, генерируют припев отдельно, а потом склеивают в аудиоредакторе. Процесс не сложный, но кропотливый.

Постобработка: без неё никуда?

Можно ли использовать сырой результат из Suno без какой-либо обработки? Можно. Но стоит ли? Вопрос неоднозначный. Если трек нужен для демо или для публикации в соцсетях, сырой вариант вполне сгодится. А вот для чего-то более серьёзного — скажем, для альбома или саундтрека — без постобработки не обойтись. Добротный эквалайзер поможет подчеркнуть низкие частоты голоса и убрать неприятный «цифровой» призвук, который иногда всплывает в генерациях. Компрессор выровняет динамику, чтобы тихие фрагменты не терялись на фоне громких. Ну, а лёгкая сатурация добавит ту самую «грязь», которая и делает вокал по-настоящему брутальным.

Кстати, для постобработки не нужно тратить серьёзные деньги на профессиональный софт. Бесплатный Audacity справляется с базовыми задачами, а Reaper — мощная DAW, которая не сильно ударит по кошельку (лицензия стоит около шестидесяти долларов, и это разовая покупка). Тем более что большинство нужных плагинов для обработки вокала доступны бесплатно.

Чего Suno пока не умеет?

Нельзя не упомянуть ограничения. При всех своих впечатляющих возможностях Suno всё ещё спотыкается на нескольких вещах. Во-первых, нейросеть плохо справляется с резкими переходами между чистым вокалом и экстремальным — если в одном куплете нужен мелодичный голос, а в припеве гроулинг, результат часто получается смазанным. Во-вторых, длинные фразы на русском языке иногда превращаются в фонетическую кашу, особенно на высокой скорости. Ну и, наконец, Suno пока не позволяет загрузить образец голоса и сгенерировать трек «в стиле» конкретного вокалиста — хотя слухи о такой функции ходят давно.

Но технологии развиваются стремительно. Буквально год назад Suno не умела и половины того, что умеет сейчас. Да и сам факт, что обычный человек без музыкального образования может за пять минут получить трек с убедительным мужским рыком — это уже само по себе впечатляет.

Экспериментируйте с тегами, не бойтесь генерировать десятки вариантов и не стесняйтесь доводить результат в аудиоредакторе — и тот самый брутальный звук, о котором вы мечтали, рано или поздно зазвучит из ваших колонок. Удачи в поисках своего идеального рыка.