Сколько раз вы пытались сделать идеальный групповой снимок, но всё заканчивалось закрытыми глазами, смазанными лицами или чьей-то неудачной гримасой? В цифровую эпоху, когда архивы телефонов забиты гигабайтами «почти хороших» кадров, генерация изображений кажется настоящим спасательным кругом, способным вернуть магию момента, которого, возможно, и не было в реальности. Нейросети сегодня творят чудеса, позволяя не только воссоздать внешность близких людей, но и поместить компанию в совершенно фантастические или, наоборот, уютно-ностальгические декорации. Многие считают, что достаточно ввести пару слов в строку запроса, и шедевр готов, но на самом деле алгоритм требует точности хирурга и фантазии художника. Ведь машина не понимает контекста дружбы, для неё это лишь набор пикселей и векторов. А начать стоит с понимания того, как именно искусственный интеллект «видит» человеческие взаимоотношения через текст.
С чего начинается запрос?
С определения главных героев. Обыватель часто совершает ошибку, просто написав «группа друзей», и получает в ответ набор стандартных, глянцевых лиц, лишенных индивидуальности. Нужно отметить, что для нейросети важна конкретика. Стоит указать количество людей, их пол, примерный возраст и даже стиль одежды. Сложно ли это? Вовсе нет. Достаточно добавить описательные прилагательные. Например, вместо сухого «люди» лучше написать:
«three happy friends, mid-20s, casual streetwear» (трое счастливых друзей, около 20 лет, повседневная уличная одежда).
Это сразу задаёт тон всей генерации. Кроме того, имеет смысл уточнить этническую принадлежность или специфические черты, если вы хотите добиться портретного сходства или определённого колорита. Разумеется, описывать каждого из десяти человек в кадре — задача утомительная, да и результат может стать непредсказуемым, поэтому оптимальное число персонажей для детальной проработки обычно варьируется от трёх до пяти.
Атмосфера и освещение
Свет — это, пожалуй, львиная доля успеха любого кадра, даже сгенерированного. Без правильного указания освещения картинка рискует стать плоской и пластмассовой. Искушенный пользователь знает, что волшебные слова вроде «golden hour» (золотой час) или «cinematic lighting» (кинематографичное освещение) кардинально меняют восприятие. Если вы грезите о тёплом, ламповом снимке, стоит добавить в промт «warm cozy lighting» (теплое уютное освещение) или «soft sunlight» (мягкий солнечный свет). А вот для вечеринки в клубе подойдут совсем другие маркеры: «neon lights» (неоновые огни), «dark atmosphere» (тёмная атмосфера), «vibrant colors» (яркие цвета). Главное — угадать с палитрой. Ведь именно свет лепит объем и создаёт настроение, превращая набор манекенов в живых людей. Кстати, довольно часто новички забывают указывать время суток, полагаясь на случай, чего делать категорически не стоит.
Городская прогулка: Сценарий
Представим ситуацию: вам нужно создать фото друзей, гуляющих по мегаполису. Это динамичный, живой сюжет. Промт для такой задачи должен включать не только описание персонажей, но и действие, а также окружение. Добротный запрос может выглядеть следующим образом:
«A group of 4 friends walking down a busy New York street, laughing and talking, candid shot, urban atmosphere, shallow depth of field, photorealistic, 8k –ar 16:9»
Здесь каждое слово на своём месте. «Candid shot» (случайный кадр) убирает неестественную постановочность, заставляя нейросеть имитировать репортажную съемку. «Shallow depth of field» (малая глубина резкости) размывает фон, акцентируя внимание на лицах, что придаёт снимку профессиональный вид. Это же правило касается и выбора локации: чем точнее вы опишете улицу (busy, quiet, rainy), тем атмосфернее выйдет итог.
Уютные посиделки
Совсем иное дело — домашняя атмосфера. Здесь важны детали интерьера и ощущение близости. Нюанс кроется в мелочах: чашках кофе, пледах, настольных играх. Для воссоздания такого сюжета запрос может звучать так:
«Three friends sitting on a comfortable sofa in a cozy living room, drinking tea, warm smiles, knitted sweaters, fireplace in the background, hygge style, soft morning light, highly detailed –ar 4:5»
Стиль «hygge» (хюгге) сам по себе является мощным триггером для нейросети, вызывая ассоциации с комфортом и уютом. А упоминание одежды («knitted sweaters») добавляет тактильности изображению. И всё же, не стоит перегружать сцену лишними предметами, иначе алгоритм может запутаться и создать хаос.
Отдых на природе: Детали
Если компания друзей отправляется в лес или горы, промт должен отражать величие природы и дух приключений. Ключевые слова здесь — «landscape» (пейзаж), «adventure» (приключение), «wide angle» (широкий угол). Пример готового решения:
«Wide angle shot of a group of friends hiking in the mountains, breathtaking view, pine forest, backpacks, golden sunset light, joyful emotions, realistic texture, 4k»
Использование «wide angle» позволяет показать не только людей, но и окружающую красоту, что для природных снимков критически важно. Тем более, что нейросети великолепно справляются с генерацией текстур камня, листвы и облаков. Можно добавить уточнение погоды: «foggy morning» (туманное утро) для мистики или «bright sunny day» (яркий солнечный день) для позитива.
Эстетика плёночных снимков
Настоящий тренд последнего времени — имитация старых фотографий. Это придаёт изображению некий налет ностальгии и документальности. Чтобы получить такой эффект, нужно использовать специфический лексикон фотолюбителей прошлого века. В ход идут названия плёнок и камер. Попробуйте такой вариант:
«Group of friends at a beach party at night, flash photography, vintage polaroid style, film grain, slightly blurred, Kodak Portra 400 aesthetic, candid moments, fun atmosphere»
Словосочетание «flash photography» (съёмка со вспышкой) создаёт тот самый эффект резкого света и тёмного фона, характерный для мыльниц 90-х. А «film grain» (плёночное зерно) маскирует излишнюю гладкость цифровой генерации, делая кожу и текстуры более естественными, пусть и менее идеальными.
Обязательно ли использовать сложные термины?
Многие пугаются технических параметров вроде «ISO», «aperture» или названий объективов. Обязательно ли их прописывать? Вовсе нет. Однако их наличие помогает алгоритму точнее настроить виртуальную камеру. Если вы напишете «shot on Sony A7R IV, 35mm lens, f/1.8», нейросеть поймёт, что нужно сделать четкий фокус на лицах и красивое размытие фона (боке). Это не магия, а просто язык, на котором общаются фотографы. Для портретов друзей лучше всего подходят фокусные расстояния 35mm, 50mm или 85mm. Они дают наиболее естественные пропорции лица без искажений. А вот «fisheye» (рыбий глаз) стоит использовать с осторожностью, разве что вы хотите получить комичный или экстремальный эффект.
Стиль и художественные направления
Иногда хочется уйти от реализма и превратить друзей в героев комикса, киберпанк-саги или картины маслом. Выбор стилей здесь поистине грандиозный. Для любителей футуризма подойдет запрос:
«Cyberpunk style, group of friends standing in a futuristic neon city, rain, glowing clothes, intense colors, digital art, artstation trend»
А если душа тяготеет к классике, можно попробовать:
«Oil painting style, portrait of friends at a dinner table, renaissance lighting, intricate details, thick brushstrokes»
Важно понимать, что при стилизации черты лиц могут искажаться сильнее, чем при реалистичной генерации. Поэтому, если сходство критично, придется потратить время на перебор вариантов (вариации) или использование функции Image-to-Image, загрузив реальные фото референсов.
Ошибки и подводные камни
Генерация людей — задача не из лёгких. Самая распространенная проблема, с которой сталкивается пользователь, — это конечности. Нейросети до сих пор испытывают трудности с пальцами рук, иногда рисуя их по шесть или семь штук, а то и сплетая в немыслимые узлы. Это же касается и зубов. Чтобы минимизировать подобные казусы, стоит использовать так называемые «negative prompts» (негативные подсказки). Это список того, чего на изображении быть не должно. В большинстве интерфейсов для этого есть отдельное поле. Туда смело вписывайте:
«deformed hands, missing limbs, extra fingers, bad anatomy, ugly, blurry, low quality, disfigured»
Это своего рода страховка. Конечно, она не даёт стопроцентной гарантии, но количество брака снижает заметно. Также старайтесь избегать сложных поз, где руки переплетены — машине сложно понять, чья это рука и откуда она растет.
Композиционные приёмы
Как расположить людей в кадре? Вопрос не праздный. От композиции зависит восприятие сюжета. Можно попросить нейросеть сделать кадр снизу («low angle view»), чтобы придать фигурам монументальность, или сверху («high angle view»), чтобы показать раскладку пикника или общий рисунок танца. Интересный результат дает запрос «looking at camera» (смотрят в камеру), создающий эффект прямого контакта со зрителем. Противоположный вариант — «looking at each other» (смотрят друг на друга) — добавляет интимности и естественности, будто фотограф подсмотрел момент общения. Стоит экспериментировать и с дистанцией: «close-up» (крупный план) хорош для эмоций, но в групповом фото может не уместить всех, поэтому чаще используется «medium shot» (средний план) или «full body shot» (в полный рост).
Технические параметры и соотношение сторон
Нельзя не упомянуть и о формате изображения. По умолчанию многие генераторы выдают квадрат (1:1), что не всегда удобно для групповых снимков, особенно если друзей много. Люди просто сбиваются в кучу. Поэтому в конце промта крайне желательно добавлять параметры соотношения сторон. Для горизонтальных снимков, идеальных для мониторов и обложек, используйте «–ar 16:9» или «–ar 3:2». Если же цель — сторис в социальных сетях, то лучше подойдёт вертикальный формат «–ar 9:16». Эти сухие цифры на самом деле определяют то, сколько пространства будет у ваших персонажей, чтобы «дышать» в кадре.
Фактор случайности
Удивительно, но иногда самые лучшие результаты получаются благодаря ошибкам или неожиданным интерпретациям алгоритма. Можно добавить в промт слово «chaos» с определенным значением (например, в Midjourney это параметр –c), чтобы повысить вариативность результатов. Высокий уровень хаоса заставит нейросеть предлагать совершенно разные композиционные и стилевые решения на один и тот же запрос. Это отличный способ найти вдохновение, когда собственные идеи иссякли. Ведь творчество — это всегда поиск, и искусственный интеллект здесь выступает в роли непредсказуемого, но талантливого соавтора.
Промт для делового стиля
Бывают ситуации, когда нужны фото не для развлечения, а для презентации или сайта. Например, команда стартапа. Здесь неуместны неоновые огни и пижамы. Запрос должен быть строгим и лаконичным:
«Group of young professionals in a modern office environment, standing confidently, business casual attire, bright daylight, glass walls background, depth of field, high resolution, corporate style»
Слова «confident» (уверенный) и «professional» (профессиональный) влияют на позы и выражения лиц. Персонажи выпрямят спины и примут более собранный вид. Фон в виде «modern office» или «glass walls» (стеклянные стены) создаст нужный антураж успеха и прозрачности бизнеса.
Финальные штрихи
Работа с промтами — это процесс, требующий терпения. Редко когда первый же сгенерированный вариант оказывается идеальным. Приходится менять слова местами, добавлять веса отдельным токенам (используя синтаксис вроде ::2 для усиления важности слова), играть с настройками стилизации. Но результат того стоит. Создать фото друзей, которых разделяют тысячи километров, или поместить компанию в мир любимой видеоигры — это возможность расширить границы реальности. Главное — не бояться пробовать новое и комбинировать, казалось бы, несочетаемые стили. Пусть ваша цифровая галерея пополнится уникальными кадрами, которые вызовут улыбку и удивление. Творите смело, и пусть каждый сгенерированный пиксель радует глаз!