Создание качественного изображения одного человека в нейросетях уже давно перестало быть чем-то сверхъестественным, однако появление в кадре второго персонажа моментально усложняет задачу в геометрической прогрессии. Лица начинают сливаться, конечности перепутываться, а взгляды героев часто устремлены в пустоту или, что ещё хуже, в разные стороны. Знакомая ситуация? Безусловно. Ведь нейросети, пытаясь сгенерировать двух людей одновременно, часто теряют логику композиции и анатомическую точность, превращая романтическую сцену в боди-хоррор. Но чтобы не ошибиться и получить достойный результат, нужно понимать саму структуру запроса и использовать проверенные формулировки.
С чего начинается запрос?
Первым делом стоит определиться с тем, кто именно находится перед нами. Простого указания «мужчина и женщина» (man and woman) нейросети будет явно недостаточно. Ведь для алгоритма это слишком абстрактные понятия, которые он волен интерпретировать самым неожиданным образом. Поэтому начинать описание следует с конкретики, касающейся возраста, этнической принадлежности и даже одежды героев. К слову, именно одежда часто становится камнем преткновения: если не указать разные цвета или стили для каждого персонажа, искусственный интеллект может облачить пару в одинаковые «униформы». Хорошим решением станет использование конструкции, где вы описываете каждого героя отдельно, соединяя их союзом «and» или «with».
Сложно ли наладить взаимодействие?
Да, это, пожалуй, самый щепетильный момент. Если вы не укажете действие, нейросеть просто поставит две фигуры рядом, как истуканов на паспортном контроле. Чтобы вдохнуть жизнь в изображение, нужны глаголы. Слова «hugging» (обнимаются), «holding hands» (держатся за руки), «looking at each other» (смотрят друг на друга) или «dancing» (танцуют) творят чудеса. А вот глагол «kissing» (целуются) использовать стоит с осторожностью. Дело в том, что генерация слияния лиц всё ещё остаётся слабым местом многих моделей, и вместо нежного поцелуя можно получить довольно пугающее месиво из носов и губ. Безопаснее и эстетичнее часто выглядит момент «за секунду до поцелуя» (about to kiss), который создаёт нужное напряжение и атмосферу.
Реалистичный стиль
Для тех, кто тяготеет к фотореализму и хочет получить кадр, неотличимый от работы профессионального фотографа, акцент нужно делать на технические параметры съёмки. Здесь на помощь приходят термины из мира кино и фотографии. Упоминание конкретных моделей камер, типа плёнки или настройки освещения задаст правильный тон всей генерации. Не стоит забывать и про освещение, ведь именно оно формирует объём и настроение кадра. Мягкий утренний свет или, наоборот, жёсткие тени нуарного стиля кардинально меняют восприятие одной и той же пары.
Вот пример того, как можно сформулировать запрос для кинематографичного портрета. Представьте себе пару, гуляющую под дождем. Это классический, но всегда выигрышный сюжет. Промт может звучать так:
«Cinematic shot of a loving couple standing in the rain, heavy rain, wet hair, man hugging woman from behind, emotional faces, looking at the camera, night city lights background, bokeh, highly detailed, 8k, shot on 35mm lens, realistic skin texture»
Заметьте, здесь мы не просто обозначили действие, но и добавили текстурные детали (мокрые волосы, текстура кожи), а также задали технические параметры (35мм объектив).
Другой вариант – студийная съёмка. Если вам нужен глянцевый, журнальный вид, лексикон должен измениться. Попробуйте следующую конструкцию:
«Fashion portrait of a stylish couple, african american man in tuxedo and asian woman in red evening dress, posing back to back, confident look, studio lighting, plain grey background, sharp focus, vogue style, high fashion photography, professional color grading»
Здесь ключевую роль играют описание одежды и конкретное позиционирование (спина к спине), что избавляет нейросеть от необходимости «придумывать» сложные сплетения конечностей.
Художественные и арт-стили
Разумеется, реализмом мир генераций не ограничивается. Довольно часто возникает желание превратить пару в героев фэнтезийной саги или киберпанк-боевика. В этом случае технические термины уступают место описанию атмосферы и художественных техник. Секрет успеха здесь кроется в использовании имён известных художников или названий конкретных стилей (oil painting, watercolor, digital art).
Допустим, вы хотите увидеть пару в эстетике киберпанка. Это направление всё ещё невероятно популярно и позволяет скрыть мелкие огрехи генерации за ярким неоновым свечением. Запрос может выглядеть следующим образом:
«Cyberpunk style couple, cyborg man and neon-haired girl, futuristic armor, glowing tattoos, standing on a rainy neon street of Tokyo, blue and pink lighting, synthwave vibe, digital illustration, trending on artstation, intricate details, unreal engine 5 render»
Такое описание даёт нейросети чёткую инструкцию по цветовой палитре (синий и розовый) и общей детализации.
А если душа просит чего-то более мягкого и романтичного? Например, в стиле классической живописи. Тогда стоит обратиться к техникам масла и мягких мазков. Примерный промт:
«Oil painting of a couple having a picnic by the river, sunny summer day, impressionism style, claude monet style, soft brushstrokes, vibrant colors, romantic atmosphere, flowers and grass, masterpiece, traditional art»
Этот запрос уводит алгоритм от попыток создать фотореалистичную кожу, позволяя сосредоточиться на передаче света и настроения.
Распространённые ошибки
Казалось бы, всё просто, но подводные камни встречаются на каждом шагу. Главная проблема – это смешивание атрибутов. Нейросеть – сущность довольно рассеянная. Если вы напишете «мужчина в синей шляпе и женщина в красном платье», есть немалая вероятность получить мужчину в красном платье или женщину в синей шляпе. А то и обоих в фиолетовом. Чтобы этого избежать, стоит использовать так называемый «regional prompting» (если интерфейс позволяет) или же максимально разносить описания героев в предложении, усиливая их вес (коэффициенты значимости).
Ещё один нюанс – количество конечностей. При тесном взаимодействии (объятиях) у пары часто появляются лишние пальцы или даже третья рука, обнимающая кого-то из пустоты. Это происходит потому, что модель не всегда понимает, где заканчивается одно тело и начинается другое. Спасательный круг в такой ситуации – негативный промт (negative prompt). В него обязательно стоит вписать такие слова, как:
«mutated hands, extra fingers, extra limbs, fused bodies, missing limbs, bad anatomy, deformed faces»
Это не панацея, но количество брака снизит существенно.
Свет и окружение
Нельзя не упомянуть и о фоне. Ошибка новичка – оставлять фон на усмотрение нейросети. В итоге вы получаете идеально прорисованную пару, стоящую посреди размытого нечто, напоминающего то ли лес, то ли библиотеку. Окружение должно работать на историю. Если это романтика – пусть будет «cozy cafe» или «sunset beach». Если драма – «stormy sky» или «ruins».
Приведём пример промта, где окружение играет чуть ли не главную роль, создавая сюжет.
«Post-apocalyptic couple survivor, dirty clothes, holding rifles, standing in destroyed city ruins, overgrown with ivy, dramatic lighting, volumetric fog, cinematic scene, last of us vibe, survival atmosphere, gritty texture, detailed background»
Здесь фон (руины, плющ, туман) рассказывает о героях больше, чем их лица.
Техническая часть
Что насчёт соотношения сторон? Это важный параметр, который многие игнорируют. Для портретов пары вертикальный формат (например, 2:3 или 9:16) подходит лучше всего, так как позволяет вместить фигуры в полный рост или по пояс, не обрезая головы. Горизонтальный формат (16:9) хорош для кинематографичных сцен, где важно показать окружение и взаимодействие героев с пространством. Квадрат (1:1), который часто стоит по умолчанию, может быть тесноват для двоих, заставляя нейросеть неестественно сжимать фигуры.
Продвинутые приемы детализации
Чтобы добавить изображению ту самую «изюминку», стоит использовать слова, описывающие эмоции и микро-детали. ИИ хорошо понимает такие определения, как «intricate details» (сложные детали) для одежды или «expressive eyes» (выразительные глаза) для лиц. Также можно экспериментировать с ракурсами. Фразы вроде «low angle shot» (съёмка с нижней точки) придадут паре величественности, а «top down view» (вид сверху) добавит уязвимости или интимности сцене.
Ну и, конечно же, стиль одежды. Не ограничивайтесь простым «dress» или «suit». Конкретизируйте: «vintage floral dress», «leather biker jacket», «silk blouse». Ткани имеют разную текстуру, и современные модели отлично умеют её передавать. Шёлк будет бликовать, кожа – иметь характерный матовый или глянцевый отблеск, а шерсть – выглядеть мягкой и ворсистой. Это добавляет тактильности изображению.
Сценарии для вдохновения
Иногда фантазия даёт сбой, и придумать сюжет с нуля бывает сложно. В таких случаях можно воспользоваться готовыми шаблонами, адаптируя их под свои нужды. Рассмотрим несколько беспроигрышных вариантов, которые почти всегда выдают добротный результат.
Свадебная тематика – это вечная классика. Здесь важна торжественность и чистота. Попробуйте такой вариант:
«Wedding photography, bride and groom, close up portrait, bohemian style wedding, outdoor forest ceremony, soft natural light, blurred green background, happiness, white lace dress, beige suit, flowers in hair, sharp details, canon 5d mark iv»
Обратите внимание на уточнение «bohemian style» – это сразу задает определенную расслабленную эстетику, отличную от строгой классики.
Фэнтези-пара, например, эльф и человек. Это сложный запрос, требующий четкого разделения рас.
«Fantasy portrait, elven woman with pointed ears and silver hair hugging human warrior man with scars, medieval armor, magical forest background, glowing fireflies, mystical atmosphere, digital painting, artgerm style, detailed faces, fantasy romance»
Здесь упоминание светлячков (glowing fireflies) добавляет магии и работает как дополнительный источник света.
Повседневная жизнь, или «lifestyle». Такие кадры выглядят очень живо и естественно, будто подсмотрены случайно.
«Candid shot of a young couple laughing in a kitchen, cooking together, flour on faces, messy hair, morning sunlight coming through window, cozy home atmosphere, highly detailed, realistic photography, fujifilm color»
Слово «candid» (искренний, непостановочный) здесь является ключевым, оно заставляет нейросеть имитировать случайный кадр, а не постановочную фотосессию.
Нюансы работы с версиями моделей
Стоит отметить, что разные версии нейросетей (например, Midjourney v5 и v6 или различные чекпоинты Stable Diffusion) по-разному реагируют на промты. Более новые версии лучше понимают естественный язык и длинные предложения, в то время как старые модели предпочитают набор тегов через запятую. Приведённые выше примеры ориентированы на современные модели, тяготеющие к связному повествованию. Однако принцип конкретики остается неизменным везде. Чем точнее вы опишете, кто, во что одет и что делает, тем меньше «галлюцинаций» выдаст алгоритм.
Поиск идеального промта – это процесс, напоминающий настройку музыкального инструмента. Иногда достаточно заменить одно слово – например, «standing» на «leaning against wall» – и вся композиция заиграет новыми красками. Не бойтесь комбинировать стили. Кто сказал, что свадебное фото не может быть в стиле киберпанк? Или что рыцари не могут пить кофе в современной кофейне? Контрасты часто рождают самые запоминающиеся образы.
Ну и напоследок, небольшой совет: не скупитесь на эпитеты, но знайте меру. Перегруженный промт может запутать нейросеть так же сильно, как и слишком короткий. Найдите золотую середину, где каждое слово несёт смысловую нагрузку и работает на общий образ. Пусть ваши виртуальные пары выглядят гармонично, а их взгляды всегда будут наполнены смыслом, а не цифровым шумом. Удачных экспериментов и ярких генераций!