Почему, когда дело доходит до генерации групповых снимков, нейросеть словно сходит с ума, превращая безобидную идею в кадр из фильма ужасов с переплетёнными пальцами и слившимися телами? Казалось бы, создать портрет одного человека сейчас — задача тривиальная, с которой справится даже новичок за пару минут. Но стоит добавить в уравнение второго персонажа, а уж тем более компанию друзей, как алгоритмы начинают путаться в анатомии, игнорировать законы физики и выдавать совершенно сюрреалистические результаты. Это вызывает вполне понятное раздражение. Ведь хочется получить красивую картинку, а не пособие по мутациям. А начать стоит с понимания того, как именно машина «видит» взаимодействие объектов в кадре и какими словами можно направить её «мысли» в нужное русло.
В чём сложность?
Кроется проблема, прежде всего, в отсутствии у искусственного интеллекта понимания социальных и физических связей. Для человека объятия — это эмоциональный жест с конкретной механикой рук, а для нейросети — просто набор пикселей, где один объект перекрывает другой. Сложно ли машине разделить два силуэта? Довольно сложно. Она часто воспринимает группу людей как единую биомассу, пытаясь «сплавить» текстуры одежды или кожи. Отсюда и растут ноги у распространённых ошибок: лишних конечностей, голов, растущих из плеча соседа, или странных поз, которые в реальности привели бы к визиту к травматологу. И всё же добиться реализма можно. Главное — четко разграничить персонажей в текстовом описании.
Анатомия правильного запроса
Структура промта для совместного фото имеет свои нюансы, отличающие её от одиночного портрета. Здесь на первый план выходит позиционирование. Львиная доля успеха зависит от того, насколько точно вы укажете, кто и где стоит. Сначала стоит описать самих героев. Не просто «два человека», а конкретно: «мужчина в чёрном костюме и женщина в красном платье». Далее следует описание их взаимодействия. Это, пожалуй, самый важный этап. Глаголы вроде «hugging» (обнимаются), «standing back to back» (стоя спина к спине) или «looking at each other» (смотрят друг на друга) служат для нейросети опорными точками. Ну и, наконец, нельзя не упомянуть окружение и стиль, которые задают тон всему изображению.
Романтика и парные снимки
Одной из самых популярных тем остаётся, безусловно, изображение влюблённой пары. Здесь обыватель часто совершает ошибку, перегружая запрос лишними деталями, забывая о главном — атмосфере. А ведь именно она создаёт «химию» в кадре. Рассмотрим конкретный пример запроса для кинематографичного кадра. Для получения тёплого, эмоционального снимка стоит использовать следующую конструкцию:
Cinematic shot of a young couple hugging gently on a beach at sunset, golden hour lighting, soft focus background, highly detailed faces, emotional connection, 8k resolution, photorealistic
Разберём по полочкам, что здесь работает. «Cinematic shot» сразу задаёт киношную эстетику. Уточнение «on a beach at sunset» даёт нейросети понятную палитру цветов — оранжевый, тёплый, мягкий. А фраза «emotional connection» хоть и кажется абстрактной, но довольно часто помогает алгоритму сделать выражения лиц более осмысленными.
Есть и другой вариант — студийная съёмка. Если вы хотите получить строгий, стильный чёрно-белый портрет, промт будет выглядеть иначе.
Fashion photography of a man and a woman standing close, noir style, dramatic lighting, sharp shadows, elegant clothes, looking at camera, high contrast, vogue editorial style
Тут уже солирует свет. «Dramatic lighting» и «sharp shadows» заставляют ИИ рисовать жёсткие тени, что придаёт снимку объём и характер. Результат обычно выглядит внушительно.
Дружеская вечеринка
С увеличением количества людей растёт и сложность генерации. Сделать так, чтобы лица трёх-четырёх друзей не превратились в кашу — задача не из лёгких. Здесь на помощь приходит описание конкретных действий. Если персонажи просто стоят, нейросеть начинает скучать и «мылить» лица. Задайте им занятие. Попробуйте такой вариант:
Group of 4 friends laughing and eating pizza at a cozy cafe, evening atmosphere, warm indoor lighting, candid shot, distinct faces, happy emotions, detailed food, depth of field
Обратите внимание на маркер «distinct faces» (отчётливые лица). Это своего рода спасательный круг. Он даёт команду алгоритму уделить больше ресурсов прорисовке черт лица каждого участника. «Candid shot» (случайный кадр) добавляет живости, убирая эффект постановочного фото из школьного альбома.
А если нужна динамика? Например, друзья бегут по пляжу или прыгают. Тут пригодится «wide angle lens» (широкоугольный объектив). Он позволяет вместить всех в кадр, не обрезая руки и ноги. Промт может быть таким:
Wide angle shot of happy friends jumping on a green field, blue sky, sunny day, dynamic poses, action freeze, high energy, sportswear, ultra realistic
Слова «dynamic poses» и «action freeze» помогают зафиксировать движение, избегая смазывания.
Семейный портрет
Особый интерес вызывает генерация изображений, где присутствуют люди разных возрастов. Нюанс тут в том, чтобы ИИ корректно отобразил разницу в росте и пропорциях. Часто бывает, что дети получаются просто уменьшенными копиями взрослых, что выглядит пугающе. Чтобы этого избежать, стоит четко прописывать возраст. Вот пример уютного, домашнего промта:
Happy family portrait, sitting on a sofa in a modern living room, parents and two children aged 6 and 10, smiling, soft natural light from window, cozy atmosphere, pastel colors, high detail texture of clothes
Указание возраста «aged 6 and 10» — это ключевой момент. Без него нейросеть может нарисовать неопределённых гомункулов. А «natural light from window» обеспечит мягкое, добротное освещение, скрывающее мелкие огрехи рендера.
Для торжественных случаев, вроде Рождества, подойдёт другой сценарий. Антураж тут играет первую скрипку.
Christmas family photo near fireplace, wearing ugly sweaters, drinking cocoa, festive decorations, bokeh lights background, magical atmosphere, detailed wool texture, 8k
Здесь мы делаем упор на текстуры («wool texture») и атмосферу («magical atmosphere»). Искусственный интеллект отлично справляется с вязаными вещами, и это добавляет реализма.
Деловая среда
Бизнес-портреты требуют строгости и чёткости. Никакой «наляпистости» или лишних эмоций. Такие изображения часто нужны для презентаций, и они должны вызывать доверие. Промт для деловых партнёров может звучать так:
Two business partners shaking hands in a modern glass office, panoramic city view in background, blue suits, professional look, confident expressions, corporate photography style, sharp focus
Словосочетание «shaking hands» (пожатие рук) — это и есть тот самый подводный камень. Руки — слабое место генеративных моделей. Поэтому, используя такой промт, будьте готовы к тому, что пальцев может оказаться больше пяти. Впрочем, современные версии Midjourney (v6 и выше) справляются с этим уже довольно неплохо. А вот маркер «confident expressions» (уверенные выражения лиц) работает безотказно, убирая пустые, стеклянные взгляды.
Фантастические и творческие сюжеты
Где нейросети действительно творят чудеса, так это в создании несуществующих миров и образов. Хотите увидеть себя и друга в образе киберпанк-самураев? Пожалуйста.
Two cyberpunk warriors standing back to back, neon rainy city street at night, futuristic armor, glowing katanas, wet reflections, purple and blue color palette, intricate details, unreal engine 5 render, cinematic lighting
Тут можно не скупиться на эпитеты. «Unreal engine 5 render» и «intricate details» (сложные детали) заставят ИИ прорисовать каждую царапину на броне. Это выглядит впечатляюще.
Или, скажем, фэнтезийный сюжет.
Elven couple walking in a magical forest, bioluminescent plants, mystical fog, ancient robes, ethereal glow, fantasy art style, greg rutkowski style, soft dreamlike atmosphere
Использование имён художников (например, Грег Рутковски) — старый, но рабочий трюк, задающий определённую стилистику мазков и освещения.
Как избежать ошибок?
Всплывут ли артефакты в процессе генерации? Безусловно. Но их количество можно сократить. Во-первых, не стоит перегружать промт противоречивыми командами. Если вы пишете «sunny day» (солнечный день) и тут же добавляете «noir style» (нуар), нейросеть впадёт в ступор. Во-вторых, используйте Negative Prompt (негативный промт), если интерфейс вашей нейросети это позволяет. Туда стоит вписать:
deformed hands, missing limbs, extra fingers, blurry faces, bad anatomy, fused bodies, mutated
Это своего рода фильтр, отсекающий мусор.
Технические нюансы
Нельзя забывать и о соотношении сторон. Для групповых фото квадратный формат (1:1), который стоит по умолчанию, часто не подходит — людям просто тесно. Лучше использовать параметры –ar 3:2 или –ar 16:9 (для Midjourney). Это даст больше пространства по бокам, и персонажи не будут прижиматься друг к другу, как сельди в бочке.
Ещё один важный момент — дистанция. Промты с пометкой «close up» (крупный план) хороши для детальной проработки лиц, но они часто обрезают прически или подбородки. А «full body shot» (в полный рост) часто страдает плохой детализацией лиц, так как на лицо приходится слишком мало пикселей. Золотая середина — это «medium shot» (средний план, по пояс) или «cowboy shot» (по бёдра). Это надёжный современный стандарт для портретной генерации.
Стилизация и постобработка
Иногда даже идеальный промт выдаёт картинку, где всё хорошо, кроме одной детали — глаз косят или рука выглядит странно. Не спешите удалять. Сейчас существует множество инструментов для «инпейнтинга» (дорисовки), которые позволяют выделить проблемную зону и перегенерировать только её. Это гораздо быстрее, чем пытаться получить идеальный кадр с нуля. К тому же, добавление зернистости («film grain») в самом промте или на постобработке часто скрывает «пластиковость» кожи, присущую ИИ.
А если хочется чего-то совсем необычного, попробуйте добавить стили живописи. «Oil painting style» (масло), «watercolor» (акварель) или «pencil sketch» (карандашный набросок). В таких стилях анатомические огрехи воспринимаются зрителем не как баг, а как художественный приём. Это же касается и абстракции.
Стоит ли бояться экспериментов?
Конечно же, нет. Генерация изображений — это процесс перебора и удачи. Иногда случайная опечатка в слове превращает скучный кадр в шедевр. Не бойтесь смешивать стили. Киберпанк в стиле Ренессанса? Почему бы и нет. Семейное фото в стилистике «Безумного Макса»? Запросто. Главное — понимать логику построения запроса, о которой мы говорили выше. Чёткость формулировок, внимание к деталям и правильные технические параметры — вот три кита, на которых держится качественная нейро-фотография. Ну и, конечно же, терпение. Ведь даже самый опытный «промт-инженер» иногда тратит десятки попыток ради того самого, единственного кадра, который потом разлетится по соцсетям. Удачи в творческих поисках, и пусть ваши виртуальные модели всегда имеют правильное количество пальцев!