Ни одна генерация не вызывает столько разочарований у новичков, как попытка создать качественное изображение с двумя персонажами. Казалось бы, что может быть проще, чем описать пару влюблённых или деловых партнёров? Но на деле мы довольно часто получаем сиамских близнецов, перепутанные прически, три руки на двоих или, что ещё хуже, мужчину в элегантном вечернем платье, которое предназначалось его спутнице. Нейросеть, будь то Midjourney или Stable Diffusion, имеет свойство смешивать токены, превращая задуманный шедевр в сюрреалистический кошмар. Однако, если разобраться в логике машинного «мышления» и научиться правильно структурировать запрос, результат способен удивить даже скептиков. А начать стоит с понимания того, как именно искусственный интеллект «видит» ваш текст.
Разделение сущностей
Главная проблема при генерации двоих — это смешивание атрибутов. Сложно ли нейросети понять, что борода должна быть у мужчины, а красная помада — у женщины? Безусловно. Ведь для алгоритма весь ваш промт — это единый суп из понятий. Чтобы избежать путаницы, стоит четко разграничивать персонажей. Один из самых действенных методов — это упоминание субъектов в разных частях предложения с привязкой конкретных прилагательных непосредственно к существительному. Не стоит писать «мужчина и женщина в красном платье и смокинге». Шанс, что смокинг окажется на даме, велик. Гораздо надёжнее конструкция: «элегантный мужчина в чёрном смокинге стоит рядом с красивой женщиной в длинном красном платье». Порядок слов здесь играет решающую роль (иногда ключевую).
Как взаимодействуют персонажи?
Статика убивает кадр. Если вы просто напишете «два человека», они, скорее всего, будут стоять столбами и смотреть в объектив с безжизненным выражением лиц. Зрелище удручающее. Чтобы оживить сцену, нужно задать глагол действия или эмоциональный контекст. Взгляд друг на друга, объятия, танец, спор, совместный смех — всё это создаёт химию. К слову, описание взаимодействия помогает нейросети лучше понять позиционирование тел в пространстве. Например, фраза «они держатся за руки» заставляет алгоритм генерировать конечности более осознанно, хотя проблемы с пальцами всё ещё всплывают довольно часто.
Сценарии освещения и атмосферы
Свет — это то, что превращает плоскую картинку в объёмную фотографию. Нельзя не упомянуть, что для парных портретов идеально подходят схемы освещения, подчеркивающие близость или, наоборот, дистанцию. Мягкий закатный свет (golden hour) создает романтический антураж. А вот жёсткий неоновый свет (neon lighting, cyberpunk style) подойдет для более дерзких, современных сюжетов. Кстати, указание типа камеры и плёнки творит чудеса. Добавление в промт «shot on Kodak Portra 400» или «35mm lens» придаёт изображению тот самый «зернистый» и живой вид, который так ценят фотографы. Это же касается и фокусного расстояния. Для крупных планов (close-up) лучше указывать 85mm или 100mm, чтобы избежать искажения пропорций лиц.
Примеры кинематографичных промтов
Перейдём от теории к практике. Допустим, нам нужна драматичная сцена из кино. Здесь важно задать настроение и детализацию кожи, чтобы избежать «пластикового» эффекта. Добротный запрос может выглядеть так:
Cinematic shot of a young couple standing in the rain, New York street background at night, wet hair, man wearing a leather jacket, woman in a beige trench coat, looking at each other intensely, emotional atmosphere, street lights reflection, highly detailed skin texture, 85mm lens, f/1.8, 8k, photorealistic –ar 16:9 –stylize 250
Обратите внимание на структуру. Сначала мы задали общий план, затем детали одежды (чтобы они не смешались), после — эмоцию и, наконец, технические параметры. Соотношение сторон 16:9 (для киноформата) тут как нельзя кстати.
Романтика и студийная съёмка
А что, если нам нужна чистая, светлая студийная фотография для рекламы или семейного альбома? Здесь стоит отказаться от сложного фона и сосредоточиться на лицах и свете. Промт будет звучать иначе.
Studio photography of two happy friends laughing, a guy and a girl, clean white background, soft studio lighting, high key, casual clothing, denim texture, genuine emotions, sharp focus, magazine quality, Vogue style, shot on Canon R5 –ar 4:5 –v 6.0
В данном случае мы используем «high key» (высокий ключ) для светлой тональности. Это проверенный временем приём. Ну и, конечно же, указание версии алгоритма (если вы используете Midjourney) помогает добиться лучшей анатомии.
Стилизация под искусство
Иногда фотографическая точность — не то, что нужно. Хочется чего-то художественного, нарисованного. Например, иллюстрация в стиле цифровой живописи. Тут в ход идут другие маркеры.
Digital art of a fantasy warrior man and an elf woman back to back, protecting each other, glowing magical forest background, intricate armor details, dynamic pose, fireflies, mystical atmosphere, concept art style, masterpiece, by ArtStation trends –ar 3:2 –niji 6
Использование параметра «–niji» (в Midjourney) переключает режим на аниме и иллюстративную стилистику, что для таких сюжетов подходит идеально. Цвета становятся насыщеннее, а композиция — динамичнее.
Нюансы композиции
Композиция — это скелет вашего изображения. И часто нейросеть «режет» головы или ноги, если не дать ей четких указаний. Слова-маркеры вроде «full body shot» (в полный рост) или «upper body shot» (по пояс) обязательны к использованию, если вам важен масштаб. Впрочем, даже с ними бывают промахи. Спасательный круг — это «zoom out» (отдаление) при постобработке, но лучше сразу заложить правильный кадр. Например, «wide angle shot» позволит вместить в кадр не только пару, но и окружающий интерьер, что добавит истории контекста.
Одежда и стиль: как не допустить «винегрет»?
Самый сложный момент — когда у персонажей должна быть принципиально разная одежда. Если вы напишете «пара в военной форме и бальном платье», результат будет непредсказуемым. Махинации с весами слов (word weights) могут помочь, но проще использовать конструкцию с разделением через точки или двойное двоеточие (в некоторых интерфейсах). Однако для обычного текстового ввода лучше всего работает последовательное описание. Сначала опишите одного героя полностью: «A tall man with a beard wearing a dark blue suit». Поставьте точку. Затем переходите ко второму: «Next to him stands a petite woman with short blonde hair wearing a floral summer dress». Такое разделение предложениями даёт алгоритму время «переварить» один образ, прежде чем приступить к другому. Это надёжно.
Проблема «одинаковых лиц»
Вы наверняка замечали, что часто пара выглядит как брат и сестра. Нейросеть тяготеет к усреднению черт лица в рамках одной генерации. Чтобы избежать инцеста на фото, нужно внести контраст в описание внешности. Укажите разную этническую принадлежность, цвет волос или возраст.
Portrait of an elderly Asian man and a young African American woman talking on a park bench, sunny day, cultural contrast, detailed wrinkles on man’s face, smooth skin on woman, candid shot, telephoto lens –ar 3:2
Контраст — вот ключ к успеху. Чем больше различий вы пропишете, тем меньше у ИИ шансов смешать их в одного человека.
Сложно ли контролировать эмоции?
Да, но результат того стоит. Фраза «они счастливы» слишком размыта. У счастья сотни оттенков. Используйте более конкретные эпитеты: «smirking» (ухмыляясь), «gazing affectionately» (глядя с нежностью), «screaming in anger» (крича в гневе). Мимика — это то, что заставляет зрителя верить в происходящее.
Close-up photo of a couple having an argument, angry facial expressions, man shouting, woman crying, tears on cheeks, dramatic lighting, blurred background, emotional tension, cinematic realism –style raw
Параметр «–style raw» убирает лишнюю «красивость» нейросети, делая фото более честным, документальным.
Роль негативного промта
Не стоит забывать и о том, чего мы видеть не хотим. В Stable Diffusion это отдельное поле, в Midjourney — параметр «–no». Что туда писать? Стандартный набор: «deformed hands, extra fingers, missing limbs, blurry, fused bodies, double heads, text, watermark». Особенно важно для парных фото добавить «mutation» и «fused bodies» (сросшиеся тела). Ведь именно срастание плеч или рук — самый частый дефект при генерации двоих людей. Это, пожалуй, львиная доля брака.
Работа с референсами
Если текстового описания мало, можно «скормить» нейросети картинку-референс. Это поможет задать позу. Но тут есть подводные камни. ИИ может слишком буквально воспринять внешность людей с референса. Поэтому стоит снижать вес картинки (Image Weight, параметр –iw) до значений 0.5–1.0, чтобы сохранить композицию, но изменить лица. Это кропотливый, но эффективный способ добиться нужной позы, например, сложной поддержки в танце.
Текстуры и детализация
Чтобы одежда не выглядела как пластиковый чехол, добавляйте названия тканей. «Silk», «velvet», «denim», «leather», «wool». Это придаёт материальность. Нейросеть отлично понимает разницу между фактурами.
Fashion photography of two models, male and female, posing in futuristic outfits, shiny latex material mixed with matte cotton, neon reflections on clothes, studio dark background, sharp focus on fabric texture –ar 2:3
Такое описание гарантирует, что зритель буквально «почувствует» материал. И всё же не перегружайте промт лишними прилагательными, иначе система начнёт игнорировать часть слов.
Эксперименты с ракурсами
Скучно смотреть на фото с уровня глаз. Попробуйте «low angle shot» (снизу вверх) для придания персонажам величия или «top-down view» (вид сверху) для создания ощущения уязвимости или геометрической композиции (например, пара лежит на траве).
Top-down drone shot of a couple lying on green grass in a circle of flowers, holding hands, eyes closed, peaceful expression, summer sunlight, soft shadows, high resolution, nature texture –ar 1:1
Ракурс меняет восприятие сцены кардинально. Это же правило касается и дистанции.
Заключительный штрих
Создание идеального промта для двоих — это всегда баланс между точностью формулировок и свободой интерпретации, которую мы оставляем алгоритму. Не бойтесь переставлять слова местами, менять стили и добавлять странные детали. Иногда именно случайная ошибка в запросе рождает настоящий шедевр. Так что пробуйте, комбинируйте, и пусть ваши виртуальные пары всегда выглядят гармонично и живо. Успешных генераций!