Создание качественного изображения с одним персонажем в современных нейросетях давно перестало быть проблемой, не так ли? Глаза смотрят куда нужно, пальцев на руках наконец-то пять, а текстура кожи выглядит пугающе реалистично. Но стоит добавить в кадр ещё двух участников, как композиция зачастую рассыпается, словно карточный домик на ветру. ИИ начинает путаться в конечностях, перемешивает цвета одежды или вовсе сращивает фигуры в некий сюрреалистичный гибрид, достойный фильмов ужасов. Однако управлять этим хаосом вполне реально, если знать правильный синтаксис и подходы к построению сцены. А начать стоит с понимания того, как именно алгоритм «видит» групповой портрет.
Сложно ли управлять толпой?
Управлять группой в текстовом запросе — задача не из лёгких. Означает ли это, что без сложных надстроек вроде ControlNet не обойтись? Вовсе нет. Основная проблема кроется, как правило, в желании пользователя описать всё и сразу в одном предложении. Когда вы просите нейросеть нарисовать «трех друзей», она действует практически наугад, опираясь на случайные паттерны из своей базы данных. Но если задать жёсткую структуру взаимодействия, шансы на успех возрастают многократно. Стоит помнить, что модель не понимает концепцию «три» как строгую математическую величину, скорее она воспринимает это как визуальный паттерн пятен. Поэтому описание действия становится главным инструментом, позволяющим разделить эти пятна и придать им человеческий облик.
Геометрия кадра
Основой любой успешной генерации служит, безусловно, крепкий каркас. Сначала вы обозначаете общее количество субъектов, и делать это нужно максимально чётко. «Three people» работает лучше, чем абстрактное «a group». Далее следует описание общего действия, которое объединяет персонажей. Они обязаны что-то делать вместе, иначе ИИ расставит их как манекенов в витрине. К следующему этапу относится детализация, но здесь кроются подводные камни. Если начать описывать одежду каждого героя в одном огромном предложении, цвета неминуемо смешаются. Это явление называют «color bleeding» (кровоточащие цвета). Чтобы избежать подобной неприятности, опытные промт-инженеры используют команду BREAK или массивное разделение весами. Ну и, наконец, окружение, которое собирает всё воедино, создавая необходимый антураж.
Как избежать смешивания цветов?
Самая частая ошибка, которая портит, казалось бы, идеальный кадр — это когда красное платье первой девушки внезапно «красит» рубашку парня, стоящего справа. Есть ли спасение от этой напасти? Да, и кроется оно в структурном разделении. В Midjourney это контролируется сложнее, но даже простыми словами можно добиться сепарации. Попробуйте описывать персонажей не последовательно, а через их роль в композиции. Звучит это примерно так:
Left person wearing blue suit, center person wearing red dress, right person wearing green shirt
Такой подход кажется сухим и техническим, однако машина понимает логику позиционирования гораздо лучше, чем логику принадлежности. Ведь для алгоритма слова «слева», «центр» и «справа» являются такими же якорями, как и названия предметов.
Сценарные решения: Друзья в кафе
Давайте рассмотрим конкретные примеры, которые можно брать за основу. Допустим, нам нужен живой, атмосферный кадр трех друзей. Простой запрос выдаст скучные лица, смотрящие в камеру, что выглядит довольно искусственно. Нам же нужна динамика. Пусть это будет случайный кадр, словно подсмотренный папарацци. Промт может выглядеть следующим образом:
Candid shot of three friends laughing specifically at a coffee shop table, dynamic angle, genuine emotions, afternoon sunlight, depth of field –ar 16:9
Обратите внимание на слово «specifically» — оно иногда помогает ИИ сфокусироваться. Важно подчеркнуть эмоции. Искренний смех подделать сложно, но нейросеть справляется, если попросить «candid emotion». Свет здесь играет роль клея, объединяющего фигуры в одно целое.
Промт для 3 человек: Семейный портрет
Семейные фото — это отдельный кладезь нюансов, где важна иерархия роста и возраста. Зачастую нейросеть делает детей слишком взрослыми, а взрослых — пугающе маленькими. Стоит указывать «age specific» или прописывать точный возраст, чтобы дать модели чёткие ориентиры. Хорошим примером станет такой запрос:
Family portrait of three people, grandfather, father and grandson standing together, age difference contrast, detailed wrinkled skin for elder, smooth skin for child, studio soft lighting, classic composition –ar 3:2
Контраст поколений создает красивую фактуру, за которую алгоритму легко зацепиться. Морщины старшего на фоне гладкой кожи ребенка — это та самая изюминка, добавляющая реализма. К тому же, студийный свет помогает избежать лишних теней на лицах, которые при групповых снимках часто превращаются в грязные пятна.
Офисная среда
Деловой имидж — это настоящая головная боль для дизайнеров, так как стоковые фото наводят тоску, а ИИ норовит нарисовать мутантов в пиджаках. Секрет успеха кроется в фокусе внимания. Пусть три коллеги смотрят не на зрителя, а на документ или экран ноутбука. Это сразу решает проблему «стеклянного взгляда». Попробуйте ввести:
Three business colleagues discussing a project around a laptop, office background, focus on the screen, professional attire, grey and navy blue suits, corporate atmosphere, blurry background –ar 16:9
Это создает историю. Зритель становится невидимым наблюдателем рабочего процесса. Цветовую гамму лучше привязать к общепринятому корпоративному стилю, где доминируют серый и синий. Разумеется, риск смешивания цветов здесь минимален, так как палитра довольно однородна.
Фэнтези и ролевые модели
Вот где фантазия может разгуляться на полную катушку, так это в создании RPG-партии. Обычно такая группа состоит из разноплановых архетипов: воин, маг и вор. Сложность заключается в том, чтобы броня воина не превратилась в мантию мага. Стоит использовать сильные архетипичные слова, которые алгоритм знает наизусть. Пример запроса:
Fantasy party of three characters walking in a dungeon. Character 1 is a heavy armored knight with a shield. Character 2 is a robed wizard with a glowing staff. Character 3 is a hooded rogue with daggers. Distinctive gear, volumetric lighting, epic composition, 8k resolution –ar 16:9
Контраст материалов помогает ИИ разделять фигуры. Металл, ткань, кожа — когда материалы разные, нейросеть лучше прорисовывает границы объектов. Она создает композицию, опираясь на разницу текстур, что нам только на руку.
Стоит ли использовать имена знаменитостей?
Помогает ли смешивание известных лиц стабилизировать результат? Безусловно, это довольно действенный метод. Если вы попросите «трех Брэдов Питтов», лица будут идентичными, что выглядит жутковато. Но если взять три разных типажа, ИИ разделит их лучше. Однако следует быть осторожным с авторскими правами и правилами конкретных платформ. Безопаснее использовать общие описания типа «lookalike» или смешивать несколько имен для создания нового человека. Например:
Three detectives in a noir city, diverse facial features, mix of Humphrey Bogart and Clint Eastwood styles, cinematic lighting, rain, trench coats
Это придает характер без нарушения этических норм. К слову, использование имен режиссёров (например, «directed by Wes Anderson») также помогает выстроить композицию, так как ИИ подтягивает данные о типичном для режиссёра расположении актеров в кадре.
Визуальный шум и детализация
Иногда изображение получается слишком «вылизанным», пластиковым. Естественно, это убивает всю атмосферу. Чтобы вдохнуть жизнь в картинку, нужно добавить несовершенств. Пылинки в воздухе, случайные блики, текстура ткани. Для группы из трех человек отлично работает добавление погодных условий или эффектов среды. Пример для уличной моды:
Three fashion models posing on urban stairs, streetwear outfits, direct harsh sunlight, high contrast, film grain, vogue style, graffiti wall background –ar 2:3
Здесь зернистость пленки (film grain) скроет мелкие огрехи в прорисовке лиц, которые неизбежны при средних и дальних планах. А жёсткий свет (harsh sunlight) добавит объёма фигурам, не давая им слиться в единую массу.
Типичные ошибки
Почему же генерация иногда терпит фиаско? Львиная доля провалов случается из-за перегрузки промта. Слишком много слов путают модель, и она начинает игнорировать части запроса. Также губительны противоречивые команды. Нельзя просить «wide angle» (широкий угол) и «macro closeup» (макро крупный план) одновременно — это вводит алгоритм в ступор. Ещё один бич новичков — отсутствие указания соотношения сторон. Для трех человек горизонтальный кадр (–ar 16:9 или 3:2) нужен практически всегда. В квадратном или вертикальном формате им будет тесно, и ИИ начнет обрезать плечи или сращивать тела, пытаясь впихнуть невпихуемое.
Работа с негативным промтом
Нельзя не упомянуть и о методе «отсечения». Негативный промт (Negative Prompt) — это ваш спасательный круг. Туда стоит добавлять всё то, что мы не хотим видеть:
fused bodies, extra limbs, mutated hands, bad anatomy, duplicate faces, clones, ugly, distorted
Это чистит генерацию. Для групп особенно важно исключить «clones» (клонов). Иначе вы рискуете получить тройняшек там, где этого не планировали. Впрочем, даже с негативным промтом иногда проскакивают артефакты, но их количество заметно снижается. Это довольно простой, но эффективный инструмент, которым пренебрегать — себе дороже.
Стилевая привязка
Ещё один способ стабилизировать троицу — задать чёткий художественный стиль. Иллюстрация, масло, киберпанк или акварель. В рисованных стилях огрехи анатомии прощаются легче, чем в фотореализме. Попробуйте такой вариант:
Oil painting of three victorian ladies having tea in a garden, impressionism style, Monet vibe, thick brushstrokes, pastel colors, soft light
Мазки кисти (brushstrokes) скроют возможные дефекты пальцев, а общая атмосфера импрессионизма сделает картинку целостной. Да и смотрится это зачастую гораздо выигрышнее, чем очередная попытка создать фотореалистичный симулякр.
Динамика поз
Статичные позы — враг хорошего кадра. Когда три человека стоят по стойке смирно, это напоминает фото на паспорт. Заставьте их взаимодействовать! Один сидит, второй стоит, третий опирается на стену. Разница уровней голов (head heights) делает композицию живой. Используйте глаголы действия. «Talking», «walking», «pointing», «leaning». Пример:
Three hikers on a mountain peak, one sitting on a rock, two standing and pointing at horizon, backpacks, adventure mood, sunset clouds –ar 16:9
Разница в позах помогает нейросети понять, что это три разных объекта, а не один трехголовый монстр. Это же правило касается и ракурсов. Съёмка снизу (low angle) придаст фигурам величия, а вид сверху (high angle) поможет лучше расположить их в пространстве.
Генерация группового портрета — это проверка на терпение и умение чётко формулировать мысли. Не стоит отчаиваться, если первые десять попыток выдадут монстров Франкенштейна. Это нормальная часть рабочего процесса. Экспериментируйте со стилями, меняйте порядок слов, играйте с весами, и рано или поздно нейросеть выдаст шедевр, который захочется распечатать и повесить на стену. Удачи в творческих поисках и пусть ваши генерации всегда будут безупречными!