Сгенерировать одиночный портрет сегодня — задача, с которой справится даже новичок, едва открывший Discord или веб-интерфейс нейросети. В сети представлено множество гайдов, обещающих шедевры за пару кликов. Но стоит добавить в кадр второго персонажа, как алгоритм начинает сходить с ума: конечности переплетаются в морские узлы, лица теряют индивидуальность, а одежда одного героя плавно перетекает на другого. Знакомая ситуация? Это классическая проблема «смешивания концептов», с которой сталкивается каждый, кто пытается создать парную сцену. Устав от суеты с бесконечным перебором вариантов, многие бросают эту затею, так и не добившись желаемого результата. А ведь секрет кроется не в магии, а в правильной структуре запроса и понимании того, как «машина» видит взаимодействие объектов. Поэтому, чтобы получить красивую парную сцену, а не фильм ужасов, придётся погрузиться в нюансы промпт-инжиниринга и научиться чётко разделять сущности.
Сложно ли управлять двоими?
Вопрос риторический. Разумеется, управлять двумя персонажами сложнее, чем одним. Главная проблема — это отсутствие у нейросети понимания физических границ тел при тесном взаимодействии. Когда вы пишете «парень обнимает девушку», ИИ часто воспринимает это как команду слить их воедино. Да и цвета одежды любят мигрировать. Если вы укажете «парень в синем, девушка в красном», то довольно часто получите парня в фиолетовом или девушку в синих брюках. Это происходит потому, что токены (слова) в промте влияют друг на друга.
Однако отчаиваться не стоит. На помощь приходит структурирование и правильный порядок слов. В английском языке (на котором мы обычно пишем промты) порядок определений критически важен. Прилагательное должно стоять вплотную к существительному, к которому оно относится. Но даже это не всегда спасает от «протечки» цвета. Тут-то и пригодятся специальные синтаксические конструкции, о которых пойдёт речь ниже. Ведь именно они позволяют расставить всё по полочкам и объяснить цифровому художнику, кто есть кто.
Анатомия запроса
С чего начинается построение грамотного промта для пары? С определения главных действующих лиц. Не стоит писать абстрактное «couple» (пара), если вы хотите контролировать внешность каждого. Лучше использовать конструкцию: «[Описание парня] AND [Описание девушки]». Союз AND (или знаки плюса, запятые, в зависимости от модели) помогает разграничить образы.
Один из самых популярных видов построения запроса выглядит так: сначала мы описываем субъектов, затем их действие, потом окружение и, наконец, технические параметры стиля. К примеру, описание может звучать следующим образом: «Handsome man with a beard wearing a tuxedo and a beautiful woman with long blonde hair wearing an evening gown». Заметьте, мы не просто перечисляем, а привязываем одежду к конкретному человеку. Далее следует действие: «dancing in a ballroom». Ну и, наконец, антураж: «crystal chandeliers, luxury atmosphere». Такой подход — добротный фундамент, на котором строится вся сцена. Но чтобы результат был действительно впечатляющим, нужно добавить деталей.
Атмосфера и стиль
Каким мы хотим видеть изображение? Фотореалистичным или рисованным? Это определяет набор токенов в конце промта. Если душа тяготеет к кинематографичности, то стоит использовать такие слова, как «cinematic lighting», «shot on 35mm», «shallow depth of field», «bokeh». Последнее особенно полезно: размытый фон помогает акцентировать внимание на паре и скрывает возможные огрехи заднего плана.
Для любителей цифровой живописи подойдут маркеры «digital art», «concept art», «intricate details», «by Artgerm» (или имена других художников). А вот оригинальное название стиля, например, «Cyberpunk», сразу задаст и цветовую гамму, и одежду, и освещение. Представьте: неоновые вывески, дождь, хромированные детали. В таком случае промт может видоизмениться до неузнаваемости, но структура «субъекты — действие — среда» останется прежней. Нельзя не упомянуть и про свет. «Golden hour» (золотой час) подарит мягкий, тёплый свет, идеальный для романтики. А «dramatic lighting» с резкими тенями добавит сцене напряжения и глубины.
Примеры готовых решений: Романтика
Романтические сцены — это, пожалуй, самый востребованный жанр. Все грезят об идеальных свиданиях на закате или уютных посиделках у камина. И здесь важно передать эмоцию. Попробуем составить рабочий вариант.Довольно просто получить хороший результат с таким запросом:
«A loving couple, man and woman, looking at each other, forehead to forehead, smiling, intimate atmosphere, sunset light, park background, photorealistic, 8k, highly detailed»
Здесь мы задали конкретную позу («лбами друг к другу»), что снижает риск генерации лишних конечностей, так как руки могут быть не в кадре.
А вот если хочется чего-то более домашнего и уютного, подойдёт следующий сценарий. Мы переносим героев в помещение. Промт будет звучать так:
«Young couple sitting on a couch, wrapped in a blanket, drinking tea, laughing, cozy living room, fireplace, warm lighting, hygge style, soft focus»
Обратите внимание на слово «hygge» — этот датский термин творит чудеса, когда нужно создать ощущение комфорта и тепла. Это же правило касается и одежды: вязаные свитера, мягкие ткани — всё это «подтягивается» нейросетью автоматически.
Городской шик и динамика
Статичные позы — это надёжно. Потому что проверено. Временем. Но иногда хочется движения, энергии, драйва. Снять пару в движении сложнее, но результат того стоит. Представьте стильную пару, идущую по улице мегаполиса.Запрос может быть таким:
«Fashionable couple walking down a busy street in New York, holding hands, man in a trench coat, woman in a stylish suit, sunglasses, motion blur background, street photography style, high fashion, candid shot»
Токен «candid shot» (случайный кадр) добавляет живости, убирая ощущение постановочности. А «motion blur» (размытие в движении) придаёт динамику фону, выделяя героев.
Отдельно стоит упомянуть вечерние сцены. Неон, отражения в мокром асфальте, загадочность. Тут пригодится такой вариант:
«Cyberpunk couple, man and woman standing back to back, holding futuristic weapons, neon city rain, glowing clothes, blue and pink lighting, intense look, masterpiece, intricate details»
Поза «спиной к спине» (back to back) — это настоящий спасательный круг для нейросетей. Она позволяет четко разделить персонажей, избегая их слияния, и при этом создать ощущение партнёрства и доверия между героями.
Ошибки и способы их решения
Идеальных генераций с первого раза не бывает. Это постулат, который нужно принять. Львиная доля брака приходится на лишние пальцы, искажённые лица и странную анатомию. Бросается в глаза, когда у девушки вдруг появляются мужские руки или наоборот. Что с этим делать? Использовать Negative Prompt (негативный запрос).
В это поле (или в конец основного промта с параметром –no в Midjourney) стоит вписать всё то, что мы не хотим видеть. Список «запрещёнки» обычно стандартный, но действенный. Туда отправляются:
«deformed, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, disgusting, poorly drawn hands, missing limb, floating limbs, disconnected limbs, malformed hands, blurry, out of focus»
Не скупитесь на слова в негативном промте. Чем подробнее вы опишете то, чего быть не должно, тем чище будет результат.
Ещё один нюанс — «многоголовость». Иногда ИИ решает, что паре нужно ещё одно лицо на двоих. Чтобы избежать этого, можно добавить в негативный промт слова «two heads, two faces, clone, duplicate». А в позитивный запрос добавить уточнение «solo face» для каждого персонажа, хотя это и работает с переменным успехом.
Как заставить их взаимодействовать?
Самое сложное — контакт. Объятия, поцелуи, рукопожатия. Нейросети (особенно старых версий) плохо понимают, где заканчивается одно тело и начинается другое. Руки часто превращаются в бесформенную массу. Есть ли выход? Безусловно.Во-первых, избегайте слишком сложных переплетений на старте. Начните с простых поз. «Standing next to each other» (стоя рядом), «leaning on shoulder» (опираясь на плечо).Во-вторых, используйте ControlNet (если работаете в Stable Diffusion). Это мощный инструмент, который позволяет задать позу с помощью «скелета» или контуров. Вы просто скармливаете нейросети картинку-референс с нужной позой, и она генерирует ваших персонажей именно в этом положении. Для пользователей Midjourney хорошим подспорьем станет функция Image Prompt, где можно подгрузить фото пары с нужной композицией и попросить ИИ стилизовать его.
Визуальный шум и детализация
Чтобы картинка не выглядела «пластиковой», нужно добавить текстуры и мелких деталей. Чистая кожа без пор и идеальная одежда часто выдают искусственное происхождение изображения.Оживить кадр помогут такие слова, как:
«detailed skin texture, freckles, moles, fabric texture, realistic eyes, messy hair»
Небрежность в причёске или складки на одежде делают образ правдоподобным. Зритель натыкается взглядом на эти мелочи и подсознательно верит в реальность происходящего. К тому же, высокая детализация часто скрывает мелкие огрехи геометрии.
Тем более, что современные модели (наподобие Midjourney v6 или FLUX) научились довольно неплохо работать с текстом и мелкими деталями. Но даже им нужна помощь. Не стоит забывать про ракурсы.
- «Low angle shot» (съёмка снизу) сделает пару величественной, монументальной.
- «High angle shot» (съёмка сверху) добавит уязвимости или романтики.
- «Close up» (крупный план) сфокусируется на эмоциях и глазах, отсекая всё лишнее, что могло бы сгенерироваться неправильно (например, руки или ноги).
Фантастические сюжеты
А если мы хотим выйти за рамки реальности? Эльф и человек? Робот и девушка? Здесь проблема смешивания концептов встаёт в полный рост. К примеру, если написать «Elf man and cyborg woman», есть риск получить эльфа с металлическими частями тела или киборга с острыми ушами.В таких случаях помогает усиление веса токенов (в разных нейросетях синтаксис отличается, но суть одна — выделить слово как более важное). Или же подробное описание каждого через разделители.Пример промта для фэнтези:
«Fantasy concept art, tall elf male with long silver hair wearing tunic AND warrior woman wearing heavy plate armor holding a sword, epic background, magical forest, glowing runes, ethereal atmosphere, digital painting, intricate aesthetic»
Использование заглавных букв в разделителе AND иногда (хоть и не всегда) помогает модели лучше понять границы.
Подводные камни цветов
Вернёмся к проблеме цвета, о которой говорилось в начале. Как же всё-таки одеть парня в чёрное, а девушку в белое, чтобы они не стали «зебрами»?Хитрость заключается в том, чтобы разнести описания как можно дальше друг от друга в предложении или использовать технику «Break» (разрыв), если нейросеть её поддерживает.Также помогает повторение. Звучит странно, но это работает:
«Man in a black suit, black suit, black pants, black jacket. Woman in a white dress, white dress, white gown»
Настойчивость заставляет алгоритм обратить внимание на конкретный атрибут конкретного персонажа. Это, конечно, не панацея, но процент удачных генераций повышает заметно. Да и выглядят такие запросы для машины более убедительно.
Заключительные штрихи
Работа с промтами для пары — это всегда эксперимент. Нет универсальной формулы, которая работала бы в 100% случаев, ведь генерация — процесс вероятностный. Иногда случайная опечатка может выдать результат лучше, чем выверенный часами текст. Главное — не бояться пробовать разные стили, менять порядок слов и играть с настройками. Помните, что каждый неудачный кадр приближает вас к тому самому шедевру, который захочется поставить на заставку или распечатать. Удачи в творческих поисках, и пусть ваши персонажи всегда получаются именно такими, какими вы их задумали!