Знакома ли вам ситуация, когда вместо тёплого семейного портрета или стильного снимка команды нейросеть выдает нечто, напоминающее сцену из фильма ужасов? Лица плавятся, пальцы переплетаются в немыслимые узлы, а люди на заднем плане превращаются в безликие манекены. Генерация групповых изображений — это, пожалуй, самый сложный экзамен для любого искусственного интеллекта, будь то Midjourney или Stable Diffusion. Ведь алгоритму приходится не только прорисовывать анатомию каждого отдельного персонажа, но и согласовывать их взаимодействие, освещение и масштаб. Обыватель часто бросает попытки после пятой генерации, получая вместо шедевра «кашу» из пикселей. Но чтобы не ошибиться и получить достойный результат, нужно понимать логику построения запроса и знать несколько хитростей, о которых мы и поговорим.
Как работает алгоритм?
Сложно ли машине нарисовать толпу? Да, и на это есть технические причины. Дело в том, что внимание нейросети рассеивается. Когда вы просите нарисовать одного человека, все вычислительные мощности брошены на проработку глаз, текстуры кожи и волос. Но стоит добавить в кадр ещё троих, как ресурсы делятся, и детализация неизбежно падает. И всё же современные модели (вроде Midjourney v6) научились справляться с этой задачей довольно неплохо. Главное здесь — не перегружать промт лишними деталями, которые могут запутать «электронного художника».
Геометрия кадра
С чего начинается построение группового снимка? С выбора правильного объектива и расстояния. Ошибка многих новичков заключается в игнорировании операторских терминов. Если вы просто напишете «люди стоят вместе», нейросеть может слепить их в один ком или обрезать головы. Спасательным кругом здесь становятся уточнения типа «wide angle» (широкий угол) или «full body shot» (снимков в полный рост). Это дает алгоритму понять, что в кадр должно поместиться много объектов.
А вот довольно важный нюанс — глубина резкости. Для портретов одного человека мы часто используем размытый фон (bokeh), но для группы это может сыграть злую шутку. Люди, стоящие чуть дальше, окажутся не в фокусе. Поэтому стоит указывать «deep depth of field» (большая глубина резкости) или значение диафрагмы, например, «f/8». Это гарантирует, что чёткими будут все участники съёмки, а не только тот, кто стоит по центру. Ну и, конечно же, нельзя забывать про описание расположения: «standing in a row» (стоя в ряд), «sitting around a table» (сидя вокруг стола) или «walking towards camera» (идущие на камеру).
Стилистика и освещение
Настроение снимка задает свет. Для групповых фото беспроигрышным вариантом является мягкое, рассеянное освещение. Жёсткие тени могут неудачно лечь на лица, создавая эффект синяков или искажая черты. В промте лучше использовать конструкции вроде «soft studio lighting» (мягкий студийный свет) или «natural sunlight» (естественный солнечный свет). К слову, если вы хотите добавить антураж вечеринки, попробуйте «neon lights» или «warm cozy atmosphere».
Выбор стиля тоже играет львиную долю успеха. Фотореализм требует одних тегов, а стилизация под масло или киберпанк — совершенно других. Но есть и подводные камни. Чем сложнее стиль, тем выше риск артефактов на лицах в групповых сценах. Поэтому для начала стоит отработать промты в стиле «realistic photography» или «cinematic shot», а уже потом экспериментировать с импрессионизмом.
Готовые решения: семья и праздники
Теперь перейдём к практике. Допустим, вам нужен классический семейный портрет. Здесь важно передать эмоции и единство. Попробуйте использовать такую структуру запроса, где сначала описываются субъекты, затем действие, а потом технические параметры.
Пример запроса для семейного фото может выглядеть так:
«A happy family of 4 people, parents and two children, hugging and smiling, standing in a blooming garden, sunny day, soft natural lighting, wide angle shot, high detailed faces, 8k, photorealistic –ar 16:9».
Обратите внимание на детализацию. Фраза «high detailed faces» (высокодетализированные лица) — это не просто пожелание, а команда алгоритму уделить особое внимание чертам. К тому же формат 16:9 (–ar 16:9 в Midjourney) дает больше пространства по горизонтали, что критически важно для группы людей. Иначе нейросеть попытается втиснуть четверых в квадрат, что неизбежно приведет к тесноте и деформациям.
Бизнес и корпоративная среда
Задача меняется, когда нужно создать изображение команды профессионалов. Здесь уже не до объятий, нужен строгий, но доверительный тон. Одежда, позы, окружение — всё должно работать на имидж. Довольно часто пользователи забывают указать дресс-код, и в итоге на совещании директоров кто-то оказывается в футболке.
Для делового фото стоит использовать следующий шаблон:
«Group of 5 diverse business professionals standing in a modern office, wearing formal suits, confident poses, looking at the camera, glass walls background, bright office lighting, cinematic composition, depth of field, sharp focus, 8k, –ar 3:2 –style raw».
Параметр «–style raw» (для Midjourney) помогает убрать лишнюю художественность, делая снимок более похожим на стоковую фотографию. А слово «diverse» (разнообразные) подсказывает сети, что люди должны отличаться друг от друга, чтобы избежать эффекта клонирования, когда все сотрудники выглядят как братья-близнецы.
Атмосферные и тематические снимки
Но что, если душа просит чего-то необычного? Например, группы друзей в стиле фэнтези или киберпанк-банды. Здесь можно дать волю фантазии, но не стоит забывать о композиции. Антураж не должен перекрывать персонажей.
Вот вариант для любителей фантастики:
«A team of 3 cyberpunk hackers walking down a rainy neon street at night, futuristic clothing with glowing elements, wet asphalt reflections, volumetric lighting, dynamic angle, action shot, detailed environment, Unreal Engine 5 render, –ar 16:9 –v 6.0».
Здесь мы используем «dynamic angle» (динамичный ракурс), чтобы добавить жизни. Статичные позы в таких жанрах выглядят скучно. К тому же упоминание движка «Unreal Engine 5» часто подтягивает качество текстур и освещения до уровня современных видеоигр. Это добротный современный метод получения сочных картинок.
Работа над ошибками
Почему же иногда даже с хорошим промтом получается ерунда? Самая частая причина — противоречия в запросе. Нельзя одновременно требовать «close up portrait» (крупный план) и «full body group shot» (группа в полный рост). Нейросеть просто сойдет с ума, пытаясь выполнить взаимоисключающие команды.
Другая проблема — слишком большое количество людей. Если вы попросите нарисовать «толпу из 50 человек», лица на заднем плане гарантированно превратятся в размытые пятна. Это ограничение технологии на сегодняшний день. Оптимальное количество персонажей для качественной прорисовки — от 3 до 5. Если нужно больше, готовьтесь к тому, что задние ряды придётся править вручную или смириться с их низкой детализацией.
Исправление лиц и постобработка
Даже самый идеальный промт не страхует от искажений. Глаза могут косить, а улыбки напоминать оскал. Что же делать? Не спешите удалять картинку. Во многих нейросетях есть функция Inpainting (или Vary Region). Вы просто выделяете неудачное лицо и просите перерисовать только этот участок. Это спасает львиную долю удачных по композиции кадров.
Кроме того, существуют отдельные инструменты для улучшения лиц (Face Restoration), такие как GFPGAN или CodeFormer. Они работают постфактум, улучшая уже готовое изображение. Это настоящее спасение, когда композиция идеальна, но лица подкачали. Ведь обидно выбрасывать отличный арт из-за одного неудачного глаза.
Отрицательные подсказки
Отдельно стоит упомянуть то, чего мы видеть не хотим. В Stable Diffusion поле Negative Prompt играет едва ли не большую роль, чем основной запрос. Для групповых фото туда обязательно нужно вносить определенные слова-маркеры.
Типичный набор для «очистки» изображения выглядит так:
«deformed, bad anatomy, disfigured, poorly drawn face, mutation, mutated, extra limb, ugly, disgusting, poorly drawn hands, missing limb, floating limbs, disconnected limbs, malformed hands, blur, out of focus, long neck, long body, cloned faces».
В Midjourney это делается через параметр «–no», например: «–no ugly, deformed hands, bad anatomy». Это фильтр, отсекающий заведомо провальные варианты генерации. Он не дает стопроцентной гарантии, но значительно повышает шансы на успех.
Динамика и сюжет
Статичные фото, где все стоят по стойке смирно, часто выглядят неестественно. Живое фото — это всегда действие. Попробуйте добавить глаголы движения. Пусть люди не просто стоят, а что-то делают: обсуждают проект, смеются над шуткой, чокаются бокалами или бегут.
Пример живого сюжета:
«Group of friends laughing and toasting with wine glasses at a dinner party, candid shot, real emotions, warm candlelight, cozy restaurant background, focus on faces, shallow depth of field, high quality, –ar 4:3».
Слово «candid shot» (случайный кадр) творит чудеса, заставляя ИИ имитировать случайную съемку, а не постановочную фотосессию. Это придает изображению особую искренность и теплоту. Зритель верит такому кадру гораздо больше.
Подбор одежды и цветов
Еще один нюанс, который бросается в глаза — цветовая гамма. Если не указать цвета одежды, нейросеть может одеть всех в кислотно-зелёное или, наоборот, в траурно-чёрное. Гармония цвета важна для восприятия группы как единого целого.
Можно задать общую палитру: «color palette: pastel tones, beige and white clothing». Или, наоборот, сыграть на контрасте: «one person in red, others in black». Но с последним нужно быть осторожным — нейросети пока ещё путаются в привязке конкретных цветов к конкретным объектам. Гораздо надёжнее задавать общий стиль: «boho style clothing» или «futuristic armor».
В завершение темы хочется сказать, что создание идеального группового фото в нейросети — это процесс не быстрый, но увлекательный. Это своего рода лотерея, где правильный промт значительно повышает вероятность выигрыша. Не бойтесь экспериментировать с ракурсами, светом и стилями. И даже если с первого раза у персонажей окажется по шесть пальцев, не расстраивайтесь. Немного терпения, грамотная корректировка запроса, и результат обязательно порадует вас и ваших подписчиков. Удачи в творческих поисках!