Как заставить нейросеть Suno петь в два голоса: секреты создания дуэтов

Дуэт — это особая магия. Когда два голоса сплетаются в одной мелодии, рождается то, что не способна передать ни одна сольная партия: диалог, противостояние, любовь, спор, примирение. От Фредди Меркьюри с Монсеррат Кабалье до современных коллабораций Леди Гаги и Брэдли Купера — слушатель всегда жадно ловит этот эффект двух разных тембров. И вот тут возникает закономерный вопрос: а способна ли нейросеть Suno, обученная генерировать музыку по текстовому запросу, повторить такой фокус? Многие считают, что нет, ведь по умолчанию сервис выдаёт одного вокалиста. Но на самом деле приёмов, которые заставляют ИИ петь в два голоса, набралось уже довольно много, и о них стоит поговорить предметно.

Почему Suno «не хочет» петь дуэтом

Начнём с механики. Suno — это генеративная модель, которая по тексту песни и описанию стиля собирает аудиодорожку целиком: голос, инструментал, аранжировку. Особенность в том, что нейросеть тяготеет к одному «персонажу» внутри композиции. Она слышит запрос как историю одного исполнителя и старается выдержать единый тембр от первой строки до последней. Дело в том, что при обучении модель чаще встречала сольные треки, чем дуэтные, и поэтому по умолчанию солирует кто-то один.

Отсюда и распространённое заблуждение: «Suno дуэты не умеет». Умеет. Просто её нужно об этом попросить — правильно и настойчиво.

Метатеги — главный инструмент

Вся суть в том, что Suno управляется не только текстом песни, но и метатегами в квадратных скобках. Это служебные подсказки, которые пишутся прямо в поле lyrics и указывают модели, что происходит в этот момент. Метатеги — спасательный круг для тех, кто хочет чёткой структуры. Среди них есть и те, что прямо отвечают за вокал: [Male Vocal], [Female Vocal], [Duet], [Harmony], [Choir], [Spoken Word]. Если вписать перед куплетом [Female Vocal], а перед припевом [Male Vocal], нейросеть с высокой вероятностью переключит исполнителя. Не всегда с первого раза, но переключит.

[Duet] и его подводные камни

Самый очевидный путь — поставить тег [Duet] в начале текста. Звучит логично: попросил дуэт — получи дуэт. Однако результат непредсказуем. Иногда Suno действительно выдаёт двух вокалистов, поющих параллельно. Иногда — лишь добавляет лёгкие подпевки на заднем плане. А порой вообще игнорирует команду, выдавая привычного солиста. Почему так? Потому что сам по себе тег [Duet] — это пожелание, а не приказ. Модель учитывает его наряду с десятком других факторов: жанром, темпом, языком, длиной строк. Поэтому одного волшебного слова мало. Нужна стратегия.

Как разделить партии между мужчиной и женщиной

Вот здесь начинается настоящая работа. Самый рабочий способ — построить песню как сценарий, где у каждой реплики есть свой исполнитель. Перед куплетом первого героя ставится [Male Vocal] (или [Verse 1: Male]), перед ответом героини — [Female Vocal] (или [Verse 2: Female]). А когда нужно их соединить в общем звучании, прописывается [Chorus: Duet] или [Harmony, Male and Female].

Такой приём имитирует драматургию мюзикла: он-она-они. Модель цепляется за эту логику и выдерживает роли куда чётче, чем при размытом запросе.

К слову, ещё лучше срабатывает добавление имён или ярлыков: [Anna:], [Mark:] перед строками. Suno воспринимает их как смену персонажа и старается менять тембр.

Стиль и жанр как скрытый рычаг

Многие забывают про поле Style. А зря. Ведь именно оно задаёт общую атмосферу, и в нём тоже можно прописать намёк на дуэт. Фразы вроде «male and female duet, pop ballad, emotional» или «country duet, two vocalists, harmony» работают как дополнительный фильтр. Они смещают модель в сторону тех обучающих примеров, где действительно пели вдвоём. Кантри, мюзикл, классическая эстрада, опера, поп-баллады восьмидесятых — жанры, в которых дуэты льются рекой. А вот хип-хоп или техно по умолчанию сольные, и заставить там два голоса звучать гармонично сложнее. Не невозможно, но кропотливо.

Гармонии и подпевки: тонкая настройка

Дуэт — это не всегда чёткое чередование куплетов. Часто два голоса звучат одновременно, образуя гармонию: один ведёт мелодию, второй идёт терцией или октавой выше. Для такого эффекта нужны теги [Harmony], [Backing Vocals], [Layered Vocals]. Если хочется получить мощный припев, где «он» и «она» поют в унисон, стоит прописать [Chorus: Male and Female Harmony, Powerful]. Нейросеть, получив такой набор инструкций, начинает накладывать дорожки друг на друга. Эффект довольно киношный. Особенно если жанр — рок-баллада или саундтрек.

Текст как партитура

А теперь о самом важном. Сама структура текста должна подсказывать модели, кто и когда поёт. Если вы пишете монолитный куплет на двенадцать строк без разделителей, никакие теги не спасут — Suno прочтёт его как речь одного героя. Куда эффективнее короткие реплики, чёткие смены ракурса, диалог. Например, первые четыре строки — рассказ женщины о своих чувствах, следующие четыре — реакция мужчины, припев — общий.

Текст в этом случае работает как партитура. И чем драматичнее диалог, тем охотнее нейросеть «разводит» голоса.

Ну а если вписать в скобках сценические ремарки вроде (whispering), (calling out), (softly), модель добавит ещё и эмоциональную окраску.

Что делать, если Suno упорно поёт одним голосом

Задача не из лёгких. Бывает, что после пяти попыток алгоритм всё равно выдаёт сольника. Без паники. На этот случай есть несколько обходных путей. Во-первых, стоит переключиться в режим Custom и переписать промт с нуля, усилив указания на пол вокалистов и жанр. Во-вторых, поможет функция Extend: можно сгенерировать первый куплет с мужским голосом, затем продлить трек, поменяв тег на женский, и нейросеть подхватит новую партию. В-третьих, есть приём «два трека — один монтаж»: генерируете две версии одной песни с разными вокалистами и сшиваете их во внешнем редакторе вроде Audacity или Reaper. Способ тяжёлый, но эффективный. Зато контроль над результатом полный.

Языковой нюанс

Стоит отметить, что русскоязычные тексты Suno обрабатывает чуть капризнее, чем английские. Связано это с тем, что обучающая база на английском в разы больше. Поэтому метатеги лучше писать именно по-английски, даже если сама песня — на русском. То есть [Male Vocal] вместо [Мужской голос]. Модель распознаёт английские служебные пометки увереннее. А вот сам текст куплетов может оставаться на любом языке — Suno прекрасно поёт по-русски, по-французски, по-итальянски. Главное — не смешивать команды и лирику в одной строке.

Тембры и характеры голосов

Отдельно стоит упомянуть про описание самих исполнителей. В поле стиля или прямо в метатегах можно уточнить характер вокала: «raspy male voice», «soft female soprano», «deep baritone», «youthful tenor». Чем подробнее портрет, тем интереснее результат. Грубоватый прокуренный баритон в паре с воздушным сопрано — классика жанра, которая всегда приковывает внимание. А если добавить указание на возраст или акцент — «aged male voice, country accent» — нейросеть постарается воспроизвести и эту деталь. Конечно, не идеально, однако узнаваемость возрастает заметно.

Типичные ошибки новичков

На этом поприще всплывут одни и те же грабли. Первая — перегруз метатегами. Когда в тексте каждые две строки стоит новая команда, модель путается и сбивается на хаотичное переключение. Вторая — противоречивые указания: в стиле прописан мужской рок-вокал, а в тегах стоит женский поп. Suno начинает метаться и выдаёт нечто среднее, без характера. Третья — слишком короткий трек. Если песня длится минуту, дуэту просто негде развернуться: куплет, припев — и финал. Лучше задавать длину побольше, чтобы оба героя успели спеть свои партии. Ну и, наконец, четвёртая ошибка — отказ от повторных генераций. Suno — лотерея. Иногда нужный эффект ловится с десятой попытки, и нет смысла бросать после второй неудачи.

Маленькие хитрости для эффектного финала

Финальный припев в дуэте — отдельное искусство. Чтобы сделать его по-настоящему мощным, стоит прописать [Final Chorus: Duet, Harmony, Powerful, Full Band]. Такой коктейль из тегов разворачивает аранжировку в полную ширину, добавляет подпевки, удваивает голоса. Кроме того, неплохо работает приём «эхо»: один герой поёт строку, второй её повторяет — но на октаву выше или с другой интонацией. В тексте это оформляется так, что после реплики мужчины идёт ремарка [Female echo: …] с тем же или изменённым словом. Эффект получается кинематографичный. Особенно в балладах.

Когда дуэт превращается в трио и хор

А если хочется большего? Suno умеет и это. Теги [Trio], [Choir], [Group Vocals] открывают двери к многоголосию. Правда, чем больше голосов, тем выше шанс, что модель «слипнет» их в общий гул, потеряв индивидуальность каждого. Поэтому для трио лучше всё же чередовать партии, а хор оставлять для припевов и кульминаций. Кстати, церковный хор, госпел, оперный ансамбль — те самые жанры, где Suno раскрывается во всей красе. Получаются вещи, от которых мурашки по коже.

Удачи в экспериментах с дуэтами — пусть ваши треки звучат так, будто их записали два живых артиста в одной студии, а не алгоритм где-то на серверах. Чуть терпения, щепотка фантазии и грамотные метатеги — и Suno запоёт на два голоса так, что слушатели не отличат от настоящего сотрудничества звёзд.