Как создать красивый дуэт в нейросети Suno с помощью правильного промта

Ещё пару лет назад сама мысль о том, что нейросеть способна сочинить песню на два голоса, казалась чем-то из области фантастики, а сегодня тысячи людей без музыкального образования генерируют в Suno треки, которые сложно отличить от студийной записи. Но вот незадача — львиная доля этих композиций звучит как невнятное соло с наложенным эхом, а вовсе не как полноценный дуэт двух самобытных голосов. Дело в том, что красивое двухголосие в Suno целиком зависит от того, насколько грамотно составлен текстовый промт, и именно в его тонкостях стоит разобраться до того, как нажимать кнопку генерации.

Что вообще понимает Suno под дуэтом?

Начать нужно с неочевидного нюанса. Suno — не классическая DAW-станция, где можно развести два вокала по дорожкам и скрупулёзно выстроить баланс. Нейросеть работает иначе: она читает промт целиком, воспринимает его как единый сценарий и уже на этапе генерации решает, как распределить голоса. Именно поэтому без чётких текстовых указаний вместо дуэта на выходе получается каша. Ведь модель не умеет догадываться, где должен вступить мужской баритон, а где — женское сопрано. Ей нужна разметка. Причём не абстрактная, а вполне конкретная, вписанная прямо в текст песни с помощью специальных тегов.

К слову, Suno распознаёт несколько типов вокальных меток. Первый и самый распространённый — тег «[Male Voice]» и «[Female Voice]», которые ставятся перед строкой или куплетом. Второй вариант тяготеет к более детальному описанию: «[Verse — deep male vocal]» или «[Chorus — soft female harmony]». А вот третий подход — самый изысканный — предполагает использование имён персонажей, например «[Alex]» и «[Maria]», с предварительным описанием тембра каждого в поле стиля. Какой из них сработает лучше? Зависит от версии модели и конкретного жанра, но практика показывает, что второй вариант даёт наиболее стабильный результат.

Структура промта для двухголосия

Задача не из лёгких. Промт для дуэта отличается от обычного тем, что в нём нужно одновременно управлять и музыкальной формой, и распределением вокальных партий. Стоит задуматься об этом ещё до написания первой строчки текста. Во-первых, в поле «Style of Music» нужно сразу обозначить, что трек предполагает два голоса — например, «male-female duet, emotional pop ballad, rich harmonies». Во-вторых, сам текст песни должен быть размечен тегами так, чтобы нейросеть понимала, кто поёт в каждый конкретный момент. Ну и, наконец, стоит продумать моменты, где оба голоса звучат вместе — это и есть та самая изюминка, ради которой затевается вся история с дуэтом.

Без чётких текстовых указаний и детальной разметки внутри текста Suno с высокой вероятностью сгенерирует один вокал на весь трек, а второй голос появится разве что в виде бэк-вокала на припеве.

Довольно частая ошибка новичков — писать промт так, будто перед ними живой звукорежиссёр, который «поймёт по контексту». Не поймёт. Нейросеть буквальна до абсурда. Если в тексте нет явного переключения между голосами, Suno с высокой вероятностью сгенерирует один вокал на весь трек, а второй голос появится разве что в виде бэк-вокала на припеве. Это связано с тем, что модель обучена на огромном массиве песен, где солирует один исполнитель, и дуэтный формат для неё — скорее исключение, чем правило. Тем более что даже в обучающей выборке дуэты размечены неоднородно.

Как правильно расставить теги голосов?

Вся суть в том, что теги в Suno работают как режиссёрские ремарки в сценарии. Перед каждым фрагментом текста, который должен петь конкретный голос, ставится квадратная скобка с описанием. Выглядит это примерно так: строка «[Verse 1 — Male, raspy tenor]» сообщает нейросети, что следующий куплет нужно исполнить хрипловатым мужским тенором. А строка «[Verse 2 — Female, airy soprano]» переключает вокал на воздушное женское сопрано. Между ними можно вставить инструментальную перебивку тегом «[Instrumental Break]», чтобы переход не звучал рвано.

Отдельно стоит упомянуть припев. Именно в нём дуэт раскрывается по-настоящему, и здесь нужна особая щепетильность. Если хочется, чтобы оба голоса пели одновременно, перед припевом стоит поставить тег «[Chorus — Both voices, harmonizing]». А если задумка предполагает, что в первом припеве солирует женщина, а мужской голос подхватывает только со второго — это тоже нужно прописать явно. Suno не додумывает за автора. Она исполняет. Буквально.

Тег «[Duet]» сам по себе почти ничего не даёт. Без детальной разметки внутри текста этот тег — пустышка, которая не определяет ни тембры, ни порядок вступления голосов.

Кстати, есть ещё один подводный камень, о котором мало кто говорит. Тег «[Duet]» сам по себе почти ничего не даёт. Многие ставят его в начале промта и ждут чуда, но нейросеть воспринимает его скорее как стилистическую подсказку, а не как прямую инструкцию. Без детальной разметки внутри текста этот тег — пустышка. Да и сам по себе он не определяет ни тембры, ни порядок вступления голосов.

Стоит ли прописывать тембр и характер голоса?

Однозначно да. И вот почему. Suno умеет различать довольно тонкие вокальные характеристики, если их грамотно сформулировать на английском языке (русскоязычные описания тембра модель пока обрабатывает хуже). Разница между промтом «male voice» и «warm baritone with slight vibrato» — колоссальная. В первом случае нейросеть выдаст нечто усреднённое, нейтральное, без характера. Во втором — голос приобретёт глубину, теплоту и ту самую вибрацию, которая приковывает внимание слушателя с первых секунд.

Нужно отметить, что описание тембра лучше всего работает в поле «Style of Music», а не внутри текста песни. Там можно развернуться: «cinematic duet, male — deep warm baritone, female — bright lyrical soprano, emotional dynamics, building chorus». Такой добротный развёрнутый стиль задаёт нейросети чёткие рамки, внутри которых она уже импровизирует. А вот перегружать описание не стоит — больше пяти-шести характеристик модель начинает «терять», и результат становится непредсказуемым.

Текст песни: диалог или параллельные монологи?

Вопрос неоднозначный. С одной стороны, самые эффектные дуэты строятся на диалоге — когда голоса перекликаются, отвечают друг другу, спорят или дополняют мысль партнёра. С другой — Suno пока не всегда корректно обрабатывает быстрое чередование коротких фраз между двумя вокалами. Если строки слишком короткие (два-три слова), нейросеть может «склеить» их в один голос или сгенерировать неестественный переход.

Золотая середина — чередование по четыре-восемь строк на каждый голос с объединением на припеве. Это даёт модели достаточно «пространства», чтобы сформировать устойчивый тембр для каждого персонажа, и при этом сохраняет ощущение живого взаимодействия. К тому же такая структура ближе к классическим дуэтам в поп-музыке и балладах, на которых Suno обучалась, а значит, результат будет стабильнее.

Впрочем, есть и смелый приём — «перехват строки», когда один голос начинает фразу, а второй её заканчивает. В промте это размечается так: первая половина строки идёт под тегом одного голоса, вторая — под тегом другого. Звучит грандиозно, когда срабатывает. Но срабатывает, честно говоря, через раз. Тем более что нейросеть иногда интерпретирует такой разрыв как ошибку разметки и просто игнорирует переключение.

Секреты припева, который «цепляет»

Припев в дуэте — это момент, когда два голоса наконец сливаются воедино, и от того, насколько мощным получится это слияние, зависит общее впечатление от трека. Стоит отметить, что Suno лучше всего генерирует совместное пение, когда в теге припева явно указано «both voices in unison» или «harmonizing together». Без этого уточнения модель может оставить только один голос на припеве, а второй отправить в бэк-вокал — тихий, едва различимый.

Ещё один нюанс касается мелодической линии. Если хочется, чтобы голоса пели в терцию или в другой интервал, а не просто в унисон, стоит добавить в стиль пометку «vocal harmonies in thirds» или «layered vocal harmonies». Нейросеть не всегда попадает в точный интервал, но общее направление схватывает. И результат зачастую звучит впечатляюще — особенно в жанрах вроде кантри, госпела или эпического рока, где многоголосие исконно заложено в ДНК стиля.

Частые ошибки и как их обойти

Пожалуй, самая распространённая проблема — «исчезающий второй голос». Человек прописывает дуэт, расставляет теги, а на выходе получает трек, где второй вокал появляется на три секунды и пропадает. Это связано с тем, что промт оказался слишком длинным, и нейросеть «обрезала» его на этапе обработки. Suno имеет ограничение по длине текста (около 3000 символов в зависимости от версии), и всё, что выходит за рамки, просто отбрасывается. А вместе с «хвостом» текста улетают и теги второго голоса.

Хотя Suno умеет генерировать песни на русском, теги и описания стиля лучше всегда писать на английском — модель обучалась преимущественно на англоязычном материале.

Следующий важный момент — язык промта. Хотя Suno умеет генерировать песни на русском, теги и описания стиля лучше всегда писать на английском. Модель обучалась преимущественно на англоязычном материале, и русскоязычные инструкции вроде «[Мужской голос, хриплый баритон]» она может просто не распознать. А вот текст самой песни — пожалуйста, на любом языке. Это разные уровни обработки, и нейросеть справляется с ними по-разному.

Нельзя не упомянуть и проблему «одинаковых голосов». Бывает так, что оба вокала в сгенерированном треке звучат практически идентично — как будто поёт один человек с лёгкой обработкой. Дело в том, что без контрастного описания тембров Suno тяготеет к усреднению. Спасательный круг здесь — максимально развести голоса по характеристикам: если мужской — то «deep, gravelly», если женский — то «bright, ethereal». Чем сильнее контраст в описании, тем заметнее разница на выходе.

Продвинутые приёмы для опытных пользователей

Бридж. Этот короткий фрагмент перед финальным припевом — настоящий кладезь возможностей для дуэта. Именно в бридже можно устроить кульминационный диалог, где голоса сталкиваются, перебивают друг друга или, наоборот, замирают, оставляя только один — самый уязвимый, самый тихий. Тег «[Bridge — Female solo, whispered]» с последующим «[Final Chorus — Both, powerful, belting]» создаёт тот самый эмоциональный перепад, от которого по коже бегут мурашки. Ну, если нейросети удастся попасть в настроение. А удаётся ей это довольно часто.

Ещё один изысканный приём — использование ad-libs и вокальных вставок. Тег «[Ad-lib — Male, «oh yeah»]» или «[Female vocal ad-lib over chorus]» добавляет ту самую живую «грязь», которая отличает настоящую запись от стерильного синтеза. Suno реагирует на такие указания с переменным успехом, но когда срабатывает — результат заслуживает истинного уважения.

К тому же не стоит забывать про инструментальные вступления и аутро. Тег «[Intro — piano, slow, building anticipation]» перед первым куплетом задаёт атмосферу и даёт слушателю время настроиться на историю. А «[Outro — voices fading, acoustic guitar]» красиво завершает композицию, не обрывая её на полуслове. Мелочь, казалось бы, но именно из таких мелочей складывается ощущение профессиональной продакшн-работы.

Сколько попыток понадобится?

Было бы нечестно умолчать о том, что с первого раза идеальный дуэт в Suno получается редко. Даже с безупречным промтом. Нейросеть — штука вероятностная, и каждая генерация выдаёт немного другой результат. Иногда голоса садятся идеально с первой попытки, а иногда приходится прогонять один и тот же промт пять-семь раз, прежде чем звёзды сойдутся. Это нормально. Да и сами разработчики Suno рекомендуют генерировать несколько вариантов и выбирать лучший.

Многие считают, что платная подписка даёт более качественный результат, но на самом деле разница между бесплатной и платной версией — в количестве генераций и доступе к новым моделям, а не в «качестве голосов». Впрочем, новые модели (v3.5 и выше) действительно лучше справляются с многоголосием, так что обновление всё-таки имеет смысл. Не сильно ударит по кошельку, а возможностей прибавится ощутимо.

Освоив базовые принципы разметки и набив руку на десятке-другом генераций, можно научиться создавать в Suno дуэты, которые звучат так, будто два живых исполнителя провели вечер в студии. Удачи в экспериментах — пусть каждый новый трек звучит чуточку лучше предыдущего, а нейросеть всё чаще угадывает именно то настроение, которое задумывалось с самого начала.