Промты для генерации людей (с примерами готовых промтов)

Создание реалистичного человеческого образа в цифровом пространстве долгое время оставалось уделом избранных художников и 3D-моделлеров, тративших на один портрет недели кропотливого труда. Теперь же, когда нейросети ворвались в нашу повседневность, возможность сотворить уникальное лицо или фигуру появилась у каждого, кто способен сформулировать мысль. Однако на практике всё оказывается не так радужно: вместо фотореалистичного шедевра на экране часто возникает нечто с “пластиковой” кожей, пустым взглядом или, что ещё хуже, с анатомическими странностями вроде шести пальцев на руке. Обыватель часто винит алгоритм, но корень проблемы обычно кроется в скудности или неточности описания. Ведь машина не умеет читать мысли, она умеет лишь интерпретировать слова. Поэтому перед тем как нажимать заветную кнопку генерации, стоит погрузиться в механику составления правильного запроса, который превратит бездушный код в живую эмоцию.

С чего начинается портрет?

В представлении многих новичков хороший промт — это бесконечное полотно текста, напичканное сложными терминами. На самом деле, успех кроется в структуре. Начать нужно с главного героя, но сухого “женщина” или “мужчина” нейросети недостаточно. Ей нужны детали. Львиная доля успеха зависит от указания возраста, этнической принадлежности и даже конкретной эмоции. К примеру, описание “25-летняя скандинавская девушка, легкая улыбка, веснушки” сработает куда лучше абстрактного образа. Далее следует описание одежды и внешнего вида, ведь антураж задает тон всему изображению. А завершает эту смысловую пирамиду описание окружения и действий, которые совершает персонаж. Без контекста человек будет просто висеть в вакууме, что редко выглядит выигрышно.

Кожа и текстуры

Выглядит ли сгенерированное лицо живым? Часто нет, и причина тому — неестественная гладкость. Эффект “фарфоровой куклы” преследует многих, кто забывает указать текстурные особенности. Реальная человеческая кожа — это кладезь несовершенств: пор, микроморщинок, родинок и пушка. Чтобы добиться правдоподобия, в промт стоит внедрять такие слова, как “detailed skin texture”, “visible pores”, “skin imperfections”, “hyperrealistic”. Можно даже добавить “subsurface scattering” (подповерхностное рассеивание), что придаст коже естественное свечение, свойственное живым тканям. Это же касается и глаз. Они должны блестеть, отражать свет. Фраза “detailed iris” или “catchlight in eyes” творит чудеса, оживляя взгляд. И всё же не стоит перебарщивать с детализацией, иначе лицо может превратиться в карту рельефа, но умеренное использование этих токенов — залог успеха.

Свет

Качественный свет способен вытянуть даже посредственную композицию, а плохой — убить самую гениальную задумку. Работа со светом в промтах — это отдельное искусство. Мягкий, рассеянный свет (“soft lighting”, “diffused light”) идеально подходит для женских портретов, сглаживая недостатки и придавая образу нежность. Если же хочется драмы и характера, на помощь приходит “hard lighting” или классический “Rembrandt lighting”, создающий выразительный треугольник света на щеке. Для уличных сцен отлично работает “golden hour” (золотой час) — время перед закатом, когда всё залито теплым, мягким сиянием. А для создания кинематографичной атмосферы часто используют “volumetric lighting” (объёмный свет), который добавляет воздуху плотности и глубины. Игнорировать этот аспект — значит лишить изображение объёма, сделав его плоским и скучным.

Примеры портретных промтов

Теория — это хорошо, но практика расставляет всё по местам. Допустим, нам нужен пронзительный портрет пожилого человека, на лице которого читается мудрость и усталость. Промт может выглядеть следующим образом:

«Extreme close-up portrait of an old bearded fisherman, deep wrinkles, weathered skin, salt and pepper beard, wearing a yellow raincoat, rainy atmosphere, dramatic lighting, shot on 35mm lens, f/1.8, 8k, hyperrealistic, detailed eyes».

Здесь мы видим четкую структуру: от объекта к деталям кожи, затем к одежде, атмосфере и техническим параметрам камеры. Результат, скорее всего, будет внушительным и эмоциональным.

А если задача стоит иначе? Например, нужно создать образ современной деловой женщины. В этом случае запрос может звучать так:

«Portrait of a confident young business woman, wearing a stylish beige blazer, standing in a modern glass office, natural daylight, soft shadows, sharp focus on eyes, canon r5, 50mm lens, professional photography, high detail».

Обратите внимание на смену настроения и технических параметров: вместо драмы и дождя здесь естественный свет и офисная эстетика. Нюанс заключается в том, чтобы подбирать слова, соответствующие желаемому настроению. Для романтичного образа подойдут эпитеты “dreamy”, “ethereal”, “pastel colors”, а для брутального — “gritty”, “dark”, “contrast”.

Динамика и полный рост

Сложно ли сгенерировать человека в полный рост? Да, это задача со звёздочкой. Основная проблема здесь — анатомия конечностей и лица, которые на общем плане часто искажаются. Чтобы минимизировать риск, нужно максимально четко прописывать позу и действие. Фраза “standing” слишком размыта. Лучше написать: “walking briskly towards camera” (быстро идет к камере) или “sitting on a park bench reading a book” (сидит на скамейке, читая книгу). Конкретика помогает нейросети понять, как расположить руки и ноги.

Пример промта для ростовой фигуры в городском стиле:

«Full body shot of a stylish hipster guy walking down a busy Tokyo street at night, wearing a leather jacket and jeans, neon signs reflection, rain wet asphalt, cyberpunk vibe, dynamic pose, low angle shot, cinematic lighting, 8k resolution».

Здесь добавлены “low angle shot” (съёмка с нижнего ракурса) и “dynamic pose”, что придает кадру движение и масштаб. Одежда описана просто, но понятно, а окружение задает цветовую гамму. Кстати, именно на общих планах часто всплывают артефакты с лицами, поэтому иногда имеет смысл использовать функцию “inpainting” (дорисовка) для коррекции черт лица уже после основной генерации.

Технические параметры камеры

Многие пренебрегают указанием настроек виртуальной камеры, считая это излишеством. А зря. Ведь именно они определяют восприятие кадра. Упоминание фокусного расстояния меняет геометрию лица. Широкий угол (“24mm” или “wide angle”) добавит динамики, но может исказить пропорции, сделав нос визуально больше. Портретные объективы (“85mm”, “100mm”) сжимают перспективу, делая лицо более плоским и привлекательным. Диафрагма (“f/1.8” или “f/2.8”) отвечает за размытие фона (боке). Если вы хотите отделить персонажа от заднего плана, обязательно укажите малую глубину резкости (“shallow depth of field”). Наконец, название камеры (“Sony A7R IV”, “Kodak Portra 400”) может подсказать нейросети цветовую схему и зернистость, характерную для плёнки или цифры. Это те самые мелкие штрихи, которые превращают картинку в фотографию.

Стилизация

Фотореализм — не единственное направление. Порой хочется чего-то сказочного или, наоборот, футуристичного. Промты для стилизованных персонажей строятся по тому же скелету, но с добавлением художественных маркеров. Для фэнтези это могут быть имена художников (например, Greg Rutkowski или Artgerm), названия материалов (armor, silk, magic glow) и атмосферные описания.

Вот пример фэнтезийного промта:

«Beautiful elven archer in intricate silver armor, forest background, magical blue fireflies, ethereal atmosphere, fantasy art style, detailed face, long white hair, cinematic composition, digital painting, trending on artstation».

Ключевые слова здесь — “intricate armor”, “magical”, “ethereal”. Они переключают нейросеть из режима фотографа в режим художника.

Для любителей киберпанка подойдёт другой набор:

«Cyborg girl with mechanical parts, glowing neon lines on skin, futuristic city background, pink and cyan lighting, chrome metal texture, sci-fi style, octane render, unreal engine 5, detailed mechanical components».

Слова “chrome”, “neon” и “mechanical” задают жёсткость и технологичность образа. Довольно часто в таких промтах используют отсылки к игровым движкам (“Unreal Engine”), что намекает на высокую детализацию 3D-графики.

Ошибки

Даже идеальный позитивный промт не гарантирует отсутствие брака. Тут на сцену выходит “Negative Prompt” (негативный промт) — то, чего мы видеть не хотим. Это своего рода спасательный круг. В него обычно вписывают стандартный набор ужасов нейросетевого мира: “ugly, deformed, bad anatomy, extra fingers, missing limbs, blurry, low quality, watermark, text, bad proportions”. Не стоит пренебрегать этим инструментом. Особенно это касается рук. Нейросети до сих пор путаются в пальцах, поэтому добавление “mutated hands” или “extra digits” в негативный список — правило хорошего тона. Также полезно исключать “cartoon” или “illustration”, если ваша цель — строгий реализм.

Эстетика плёночной фотографии

Сейчас наблюдается настоящий бум на ретро-эстетику. Идеально вылизанные цифровые картинки многим приелись, хочется “ламповости”. Чтобы получить такой эффект, нужно использовать специфический лексикон. Слова “film grain” (зерно плёнки), “vintage look”, “polaroid”, “VHS effect” или названия конкретных плёнок (например, “Kodak Gold 200” или “Fujifilm Velvia”) мгновенно меняют характер изображения.

Пример винтажного промта:

«Snapshot of a young couple laughing in a 90s diner, drinking milkshakes, retro fashion, flash photography, film grain, vintage colors, polaroid style, slightly blurry, candid moment».

Слово “snapshot” (моментальный снимок) подсказывает модели, что композиция должна быть непринужденной, не постановочной. А “flash photography” (свет вспышки) добавляет тот самый жёсткий, прямой свет, характерный для любительских мыльниц прошлого века. Это создает ощущение подлинности момента, словно вы смотрите в старый семейный альбом.

Подводные камни

Разумеется, в процессе генерации можно наткнуться на неожиданные трудности. Иногда нейросеть воспринимает слова слишком буквально. Написав “девушка с голубыми глазами в красном платье”, вы можете получить девушку с красными глазами, потому что цвета смешались. Чтобы избежать этого, стоит разносить описание внешности и одежды по разным частям предложения или использовать синтаксис весов (если платформа это позволяет). Другой нюанс — избыточность. Слишком много противоречивых деталей могут сбить алгоритм с толку. Не перегружайте промт. Лучше сделать несколько итераций, добавляя детали постепенно, чем вывалить на бедную машину ведро несочетаемых понятий.

Важность экспериментов

Удивительно, но универсального рецепта не существует. Одна и та же фраза в Midjourney, Stable Diffusion или DALL-E даст совершенно разные результаты. Midjourney тяготеет к художественности и эпичности, часто игнорируя мелкие технические просьбы, зато выдавая красивую картинку по умолчанию. Stable Diffusion же — инструмент более гибкий, но и более требовательный к точности формулировок и порядку слов. Поэтому не стоит зацикливаться на одном шаблоне. Пробуйте менять местами прилагательные, убирать лишнее, добавлять синонимы. Иногда замена слова “beautiful” на “gorgeous” или “stunning” меняет черты лица до неузнаваемости.

Поиск своего стиля — это путь проб и ошибок, но он того стоит. Со временем вы соберете свою собственную библиотеку “волшебных слов”, которые работают именно для ваших задач. И тогда процесс генерации превратится из лотереи в управляемое творчество, приносящее радость и впечатляющие плоды. Удачи в создании ваших цифровых шедевров!