Промт для создания семейного портрета: генерируем идеальное фото в ИИ

В сети представлено множество безупречных картинок, где счастливые родственники позируют в идеальных интерьерах, но на практике генерация группы людей часто превращается в сущий кошмар. Буквально на первой же попытке всплывут лишние конечности, перекошенные лица и пугающая асимметрия глаз, заставляя пользователя нервно закрывать программу. Дело в том, что нейронные сети великолепно справляются с одиночными объектами, а вот согласовать сложное взаимодействие нескольких персонажей в одном кадре им довольно сложно. Многие новички грезят о том, что машина поймёт их с полуслова, однако реальность быстро расставляет всё по местам. И всё-таки, получить грандиозный результат вполне реально. Но чтобы не ошибиться, нужно с самого начала выстраивать жёсткий текстовый каркас, отсекая любые пространные формулировки.

Все топовые нейросети в одном месте

В чём подвох?

Задача не из лёгких. Ведь искусственный интеллект воспринимает композицию математически, а не визуально. Сложно ли удержать фокус на всех участниках одновременно? Да, особенно когда их количество переваливает за троих. Львиная доля неудач связана с тем, что алгоритм банально тяготеет к усреднению черт лица, смешивая фенотип дедушки и младенца в нечто совершенно невообразимое. Раньше мы покорно мирились с этим браком, часами перерисовывая фрагменты в графических редакторах, но сейчас грамотный запрос творит чудеса. Не стоит надеяться на случайность или писать длинные литературные эссе о любви к ближнему. К слову, излишняя поэтичность только сбивает генератор с толку. Желаемая картинка должна формироваться чёткими техническими терминами, подкреплёнными конкретными фокусными расстояниями, усиленными правильным студийным освещением.

Базовая архитектура

А начать стоит с крепкого фундамента. С чего начинается построение кадра? С определения базовой композиции и стиля камеры. Внушительный добротный результат получается именно тогда, когда вы сразу задаёте рамки для объектива. Не стоит забывать про указание конкретных моделей плёнки или цифровых матриц. Запрос на английском языке работает гораздо точнее, поэтому базовый каркас может выглядеть так:

A photorealistic family portrait of four people, a father, a mother, a seven-year-old son and a three-year-old daughter, sitting on a velvet green sofa in a cozy living room, natural sunlight from the window, shot on 35mm lens, Kodak Portra 400, f/2.8, highly detailed, 8k, photorealistic

Естественно, этот базис нуждается в доработке под конкретные задачи. Однако именно он задаёт правильную геометрию, работая как надёжный современный аппарат в руках профи.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Студийный свет и объективы

Освещение. Именно с этой детали начинается объём. Мягкий рассеянный свет аккуратно скроет артефакты, тогда как жёсткий контраст безжалостно выявит малейшую наляпистость генерации. Если требуется строгий классический антураж, лучше отказаться от сложного фона в пользу однотонных плотных текстур. Стоит попробовать интегрировать в строку такую конструкцию:

High-end studio family photography, parents and two teenagers standing together, classic dark grey canvas background, Rembrandt lighting, softbox, sharp focus, Hasselblad medium format, ultra-detailed faces, cinematic lighting

В этом случае солирует исключительно текстура кожи и одежда, а композиция сразу приковывает внимание зрителя. Да и самим виртуальным персонажам гораздо «комфортнее» находиться в пустом пространстве, где нейросеть не отвлекается на прорисовку падающих на заднем плане ваз или кривых оконных рам.

Как избежать мутаций?

Конечно, правильный позитивный текст формирует базу, однако без качественного негативного промта далеко не уедешь. Это настоящий спасательный круг для любого творца. Не скупитесь на перечисление возможных дефектов в блоке исключений, ведь именно там кроется залог успеха. Обязательно ли вписывать туда огромные простыни текста? Вовсе нет, но ключевые маркеры проговорить нужно обязательно. Один из самых проверенных вариантов негативного запроса включает в себя слова «extra fingers» и «mutated hands». Далее следует уточнить «poorly drawn face» вместе с «bad anatomy», чтобы алгоритм не добавил лишние искажения в пропорции. Последним в этом ряду обычно идёт связка «text, watermark, blurry», что надёжно спасает от мусора на периферии кадра. Ведь именно в углах обычно оседает весь генеративный брак, который так сильно бросается в глаза при детальном рассмотрении.

Динамика в кадре

Резкий взмах руки. Именно с такой мелкой детали может начаться безнадёжно испорченный кадр, если попытаться заставить людей активно двигаться. Довольно часто натыкаешься на результаты, где обыватель просит нарисовать бегущую по пляжу семью, получая в итоге жутковатый клубок из ног и рук. Вся суть в том, что динамика требует колоссальной, по-настоящему скрупулёзной детализации от машины. Чтобы кошелёк не стал легче от бесконечных платных генераций впустую, лучше описывать каждое действие максимально обособленно. Разумеется, отличным примером послужит такой текст:

Candid photo of a happy family walking on a sandy beach at golden hour, father carrying toddler on his shoulders, mother holding hand of a little boy, laughing, motion blur on background, fast shutter speed, 1/1000s, natural cinematic lighting, shot on Sony A7R IV

К тому же, указание короткой выдержки в тысячную долю секунды заставляет ИИ делать контуры более резкими, имитируя настоящую репортажную съёмку.

Цветовая палитра и гардероб

Одежда всегда вносит свою лепту в восприятие образа. Мало кто задумывается о том, что четыре человека, одетые в контрастные неоновые куртки, превратят снимок в нечитаемую визуальную кашу. Дело в том, что нейросети обожают цепляться за яркие пятна, перераспределяя туда всё внимание и размывая при этом лица. Чтобы избежать вычурной пестроты, лучше заранее прописывать единую цветовую гамму для всех участников. Нет смысла перегружать промт описанием каждой пуговицы или воротника, но задать общее направление просто необходимо. Хорошо срабатывает такая фраза:

Family of four wearing matching earthy tones clothing, beige knitted sweaters and brown corduroy pants, cohesive color palette, muted autumn colors, soft minimalist aesthetic

К слову, однотонный гардероб помогает машине сосредоточиться на прорисовке эмоций. Да и выглядит такой подход гораздо элегантнее.

Атмосфера и стилизация

А если хочется чего-то совершенно необычного? Исконно викторианская эпоха или стилистика мрачного киберпанка всегда вызывают неподдельный интерес. Стилизовать группу людей довольно сложно, но результат того определённо стоит. Исторический бомонд девятнадцатого века, например, требует строгих закрытых поз и специфических тяжёлых тканей. Стоит заставить персонажей облачиться в наряды прошлого, используя такой вариант:

Vintage daguerreotype style family portrait, 1890s era, stern parents sitting on antique chairs, three children standing behind, wearing authentic victorian clothing, sepia tone, dust and scratches, historical photography, highly detailed

Впрочем, здесь есть свои скрытые подводные камни, о которых не стоит забывать. Махинации с эпохами часто приводят к тому, что лица получаются слишком современными, с голливудскими белоснежными улыбками, которых в те времена просто не существовало. Поэтому в запрос стоит добавлять маркеры вроде «serious expression, neutral face».

Этническая принадлежность и возраст

Возраст выступает ещё одним щепетильным нюансом, о который регулярно спотыкаются умные алгоритмы. Совсем маленькие дети (в возрасте до одного года) с пугающей частотой получают лица взрослых людей, просто сжатые в миниатюре. Зрелище, прямо скажем, удручающее. Чтобы чадо выглядело естественно, не стоит ограничиваться коротким словом «baby». Лучше использовать точные возрастные рамки, подкреплённые физиологическими деталями: «6-month-old infant with chubby cheeks and big eyes». Это же правило безотказно работает и для пожилых людей, где подойдёт фраза «70-year-old grandfather with deep wrinkles and grey hair». Безусловно, национальные черты тоже нужно прописывать предельно явно, иначе нейросеть всё усреднит. Запрос работает просто великолепно:

A multi-generational Japanese family enjoying a picnic under cherry blossoms, grandparents, parents, and two kids, vibrant colors, sunlight filtering through leaves, 85mm lens, depth of field

Ведь именно строгая конкретика сохраняет изысканный самобытный образ, не позволяя ему скатиться в банальность.

Все топовые нейросети в одном месте

Сложно ли добиться сходства?

Многие искренне полагают, что одним лишь текстовым описанием можно добиться стопроцентного портретного сходства с реальными родственниками. Но на самом деле это популярный миф. Машина по умолчанию создаст красивых, эстетичных, но совершенно чужих незнакомцев. Для переноса реальных лиц текстовый промт выступает лишь прочной базой, на которую впоследствии накладываются дополнительные технологии (например, специально обученные модели лиц или плагины автоматической замены). Тем не менее, первоначальный запрос должен идеально подготовить почву для этих махинаций. Выручит этот сдержанный лаконичный запрос тогда, когда вам нужно получить ровные лица:

Medium shot of a caucasian man and woman in their thirties, smiling gently, facing camera, studio lighting, neutral background, perfect face anatomy, symmetrical eyes

Да и сама структура кадра получается максимально удобной для последующей работы в редакторах, ведь обе стороны медали здесь учтены.

Финальная полировка

Качественное улучшение деталей всегда венчает творческий процесс. Когда удачная композиция наконец найдена, дело остаётся за малым — вытянуть текстуры на профессиональный уровень. И всё-таки, обычного механического апскейла бывает недостаточно для достижения вау-эффекта. Стоит прогонять картинку через режим повышенной детализации, добавляя в промт завершающие штрихи, которые и создают ту самую магию реализма. К первой группе таких модификаторов смело можно отнести «pore-level detail, peach fuzz, intricate skin texture». Далее следует обязательное указание на правильное освещение глазного яблока: «catchlights in eyes, detailed iris». Ну и, наконец, общие усилители качества вроде «masterpiece, best quality, ultra high resolution» окончательно закрепляют результат. Внедряя эти слова дозированно, мы заставляем машину скрупулёзно прорабатывать те неуловимые мелочи, которые делают цифровую фотографию по-настоящему живой.

Перевоплощение хаотичного цифрового шума в полноценную семейную реликвию завершено. Овладев этими нехитрыми, но мощными текстовыми формулами, можно навсегда перестать тратить долгие часы на борьбу с мутациями и полностью сосредоточиться на творческом видении. Удачи в создании безупречных портретов, процесс генерации которых не ударит по нервам, а итоговый результат гарантированно порадует домочадцев!