Знакома ли вам ситуация, когда на идеальном групповом снимке не хватает кого-то важного, или же, наоборот, дорогие сердцу люди сфотографированы в разное время и в разных местах? Раньше для создания общей картины требовались часы кропотливой работы в графических редакторах, глубокие знания перспективы и теней, да и результат нередко выглядел как грубый коллаж. Эпоха нейросетей перевернула игру, предложив инструменты, способные не просто склеить два изображения, а перерисовать их заново, учитывая освещение и стиль. Однако обыватель, впервые столкнувшись с генерацией многофигурных композиций, быстро понимает: искусственный интеллект склонен смешивать лица, путать конечности и создавать жутковатых химер. Чтобы этого избежать, нужно овладеть искусством составления точного запроса, ведь именно слова становятся тем каркасом, на котором нейросеть строит новую реальность. А начать стоит с понимания того, как алгоритм вообще «видит» группу людей.
Сложно ли это?
На первый взгляд кажется, что достаточно просто перечислить имена или описания персонажей через запятую. Но на деле это довольно сложная задача. Дело в том, что модели вроде Midjourney или Stable Diffusion (без дополнительных надстроек) обладают рассеянным вниманием. Когда вы просите изобразить «мужчину в костюме и женщину в красном платье», нейросеть часто пытается наделить обоих персонажей атрибутами друг друга. В итоге мы получаем мужчину в красном пиджаке или женщину с мужскими чертами лица. Это явление называется «bleeding» (перетекание признаков).
Борьба с этим эффектом требует особой скрупулезности. Вам придётся буквально разложить сцену по полочкам, используя синтаксические конструкции, которые жёстко разграничивают объекты. Здесь на помощь приходят весовые коэффициенты и правильная последовательность слов. К тому же, объединение людей на фото — это не всегда генерация с нуля. Довольно часто речь идёт об использовании функций «Inpainting» (дорисовка) или «Pan», когда мы расширяем границы кадра, добавляя туда новых героев. И всё же, базой остаётся текстовый промт.
Анатомия правильного запроса
Любой добротный промт для группового портрета строится по определенной логике. Хаос здесь недопустим. Сначала мы задаём общий план и количество людей. Это критически важно. Если не указать число «two people» или «group of five friends», нейросеть будет импровизировать, и результат вас вряд ли обрадует. Далее следует описание взаимодействия. Стоят они рядом? Обнимаются? Смотрят в камеру или друг на друга? Без этого уточнения персонажи будут выглядеть отчуждённо, словно вклеенные из разных вселенных.
Затем мы переходим к деталям внешности, и вот тут кроется главный нюанс. Описывать каждого героя лучше отдельными предложениями, разрывая их точками, а не запятыми. Точка для нейросети — более сильный разделитель. Например: «Man on the left is wearing a tuxedo. Woman on the right is wearing a summer dress». Такой подход снижает риск смешивания одежды. Ну и, конечно же, нельзя забывать про окружение и стиль съемки, которые должны быть едиными для всех участников сцены. Иначе свет ляжет неестественно, разрушая иллюзию общего пространства.
Сценарии объединения: Семья
Представим классическую задачу: нужно создать семейный портрет, где присутствуют разные поколения. Сложность здесь в том, чтобы ИИ корректно отобразил возрастные различия. Простого перечисления может не хватить. Стоит использовать уточнения в скобках или усиливающие прилагательные.
Рассмотрим пример готового промта для такой сцены. Звучать он может так:
Wide shot of a happy family of 4 people standing together in a sunny park. On the left, an elderly grandfather with gray hair and glasses, wearing a knitted vest. Next to him, a young father in a blue shirt holding a little girl in a pink dress. On the right, a smiling mother with long dark hair in a white blouse. Natural lighting, depth of field, 8k resolution, photorealistic style –ar 16:9
Обратите внимание на структуру. Сначала мы задали общий контекст (семья из 4 человек, парк), а затем методично, слева направо, описали каждого. Использование пространственных привязок «On the left», «Next to him», «On the right» — это спасательный круг. Они помогают алгоритму расставить фигуры в пространстве, а не лепить их в одну кучу. Результат обычно получается довольно убедительным, хотя иногда приходится делать несколько генераций, чтобы поймать нужные эмоции.
Встреча друзей: Вечеринка
Другой распространённый сценарий — воссоздание атмосферы вечеринки, где нужно объединить компанию друзей. Здесь динамика важнее статики. Если попросить всех просто «стоять», фото выйдет скучным, как на паспорт. Нам нужен экшн, смех, взаимодействие.
Для такой задачи подойдет следующий вариант:
Group of 5 diverse friends sitting around a campfire on a beach at night, roasting marshmallows. Two men are laughing and holding beers, three women are chatting and smiling. Warm fire glow illuminating their faces, cozy atmosphere, cinematic lighting, sparks flying in the air, detailed facial features, shot on 35mm lens –v 6.0
В этом промте «изюминка» заключается в описании света («Warm fire glow»). Объединение людей на фото — это прежде всего объединение светом. Если вы берёте исходники, где один человек снят при дневном свете, а другой — в полумраке, нейросеть (особенно в режиме Remix или Blend) попытается найти среднее арифметическое, что часто выглядит грязно. Поэтому в текстовом запросе мы принудительно задаём сильный источник света (костер), который становится общим знаменателем для всех фигур.
Деловой портрет: Команда
Бизнес-задачи требуют строгости. Часто бывает так, что сотрудники находятся в разных городах, а на сайт нужно вывесить общее фото команды. Тут важна униформа или хотя бы общий стиль одежды (Business Casual), а также нейтральный фон, который не будет отвлекать внимание.
Попробуйте использовать такую конструкцию:
Professional corporate group photo of 3 business partners standing in a modern office lobby with glass walls. In the center, a tall CEO man in a dark blue suit looking confident. On his left, a woman manager in a grey blazer holding a tablet. On his right, a man in a white shirt with folded arms. Soft studio lighting, sharp focus, high definition, trustworthy vibe –style raw
Параметр --style raw здесь играет важную роль (если мы говорим о Midjourney). Он убирает излишнюю художественность и «мультяшность», делая изображение более похожим на стоковую фотографию. А фраза «trustworthy vibe» (атмосфера доверия) хоть и кажется абстрактной, но нейросети довольно хорошо считывают такие эмоциональные маркеры, корректируя мимику персонажей.
Режим Inpainting и его особенности
Текстовая генерация с нуля — это прекрасно, но что делать, если у вас уже есть фото трёх человек, и нужно добавить четвёртого? Здесь в игру вступает Inpainting (в Midjourney это кнопка «Vary (Region)», в Stable Diffusion — отдельная вкладка). Механика тут иная. Вы не описываете всю сцену заново, а работаете локально.
Алгоритм действий довольно прост, но требует терпения. Вы выделяете пустую область рядом с группой людей и в промте пишите ТОЛЬКО то, что должно появиться в этом месте. Ошибка новичка — копировать старый промт целиком. Если вы выделили пустой угол и написали «Group of friends», нейросеть попытается в этот маленький угол впихнуть ещё одну группу друзей.
Правильный промт для Inpainting будет выглядеть так:
A smiling man in a leather jacket standing naturally, looking at the group, matching lighting
Словосочетание «matching lighting» (соответствующее освещение) здесь ключевое. Мы буквально приказываем ИИ проанализировать соседние пиксели и подстроить нового персонажа под существующую среду. Это не всегда срабатывает с первого раза, но это самый надёжный способ получить реалистичный монтаж.
Как избежать “каши” из лиц?
Львиная доля брака при генерации групп приходится на искажённые лица дальнего плана. Нейросети экономят ресурсы на детализации объектов, которые занимают мало места в кадре. Это настоящая головная боль. Вы получаете отличную композицию, но стоит приблизить картинку, как вы натыкаетесь на глаза, смотрящие в разные стороны, или размытые черты.
Спасти ситуацию помогут специальные команды и правильный апскейлинг. В промт обязательно стоит добавить: «highly detailed faces», «individual facial features». Однако слова не всесильны. Эффективнее всего работает техника «Hires. fix» (в Stable Diffusion) или использование функции «Upscale (Creative)» в Midjourney, которая перерисовывает детали при увеличении разрешения.
Кроме того, не стоит перегружать сцену персонажами. Оптимальное количество для качественной генерации — от 3 до 5 человек. Если нужно изобразить толпу, лучше использовать слова «crowd» или «audience», смирившись с тем, что задние ряды будут условными. Или же генерировать людей группами и склеивать их в фотошопе — старый добрый коллажирование никто не отменял, просто теперь исходники создаёт ИИ.
Технические нюансы: Веса и соотношения
Ещё один инструмент контроля — это мульти-промптинг (использование двойного двоеточия :: в Midjourney). Это позволяет жёстко разделить концепции. Например: «Man in suit::2 Woman in dress::2 standing together::1». Цифры указывают приоритет. Если вы видите, что один персонаж доминирует и перекрывает другого, можно уменьшить его вес.
Не стоит забывать и про соотношение сторон. Для групповых фото горизонтальный формат (--ar 16:9 или --ar 3:2) подходит гораздо лучше, чем квадрат. В широком кадре у нейросети больше «холста», чтобы расставить фигуры, не прижимая их друг к другу плечами. В вертикальном или квадратном формате ИИ часто вынужден ставить людей друг за другом, что усложняет композицию и часто приводит к ошибкам анатомии.
Подводные камни и ограничения
Разумеется, технология не лишена изъянов. Главная проблема — это взаимодействие рук. Когда люди обнимаются, нейросеть часто путается: чья это рука лежит на плече? Откуда взялся третий палец? Промты вроде «hands hidden» (руки спрятаны) или «hands in pockets» (руки в карманах) могут стать временным решением, если вы устали бороться с лишними конечностями.
Второй момент — взгляд. Заставить всех смотреть в одну точку сложно. Фраза «looking at camera» работает, но иногда делает взгляды остекленевшими. Лучше использовать «looking directly at the viewer with a smile». Это добавляет живости. И всё же, будьте готовы к тому, что идеальный результат потребует десятка итераций. Это нормально. Генерация — это перебор вариантов, поиск того самого «счастливого билета» в лотерее вероятностей.
Финальный штрих
Объединение людей с помощью нейросетей — это мощный творческий инструмент, который уже сейчас меняет подход к фотографии и дизайну. Да, он требует привыкания. Да, иногда приходится бороться с упрямством алгоритма. Но возможность воссоздать момент, которого никогда не было, или собрать вместе тех, кто далеко друг от друга, стоит потраченных усилий. Главное — не бояться экспериментировать со словами, менять порядок фраз и внимательно следить за тем, как ИИ реагирует на ваши команды. Пусть ваши виртуальные встречи будут тёплыми, а лица на снимках — счастливыми и узнаваемыми.