Промт для полного роста (с примерами готовых промтов)

Создание идеального изображения в нейросетях часто напоминает лотерею, где вместо желаемого результата мы получаем лишь его фрагмент. Вы детально прописываете костюм персонажа, его позу и окружение, но искусственный интеллект, словно издеваясь, выдает крупный план лица или обрезает фигуру по колено. Знакомая ситуация? Безусловно. Ведь нейросети, будь то Midjourney или Stable Diffusion, обучались на колоссальном массиве портретных снимков, и их «тянет» к лицам, как магнитом. Это доставляет немало хлопот, особенно когда цель — показать героя во всей красе, от макушки до подошвы ботинок. Однако это вовсе не приговор, а лишь техническая особенность, которую можно и нужно обходить. Но чтобы не ошибиться и получить гарантированный результат, стоит разобраться в правильной формулировке запроса.

Почему нейросеть обрезает ноги?

Начать стоит с понимания механики процесса. Почему так происходит? Дело в том, что по умолчанию большинство генераторов настроены на создание эстетически приятных композиций, а в базе данных львиная доля красивых людей — это портреты или поясные планы. Алгоритм пытается угодить пользователю, фокусируясь на деталях лица и глаз, жертвуя при этом остальным телом. К тому же квадратный формат (1:1), который часто стоит по умолчанию, физически плохо подходит для вертикальной фигуры человека. Ему там просто тесно. В попытке впихнуть невпихуемое нейросеть принимает «соломоново решение» — обрезает ноги, чтобы сохранить детализацию лица.

Базовые команды: с чего начать

Самый очевидный способ заставить ИИ «отойти назад» — прямая текстовая команда. Работает ли фраза «full body» безотказно? Далеко не всегда, но это фундамент. Вариантов формулировок существует довольно много, и использовать их лучше в комбинации. Главным, пожалуй, остаётся классическое «full body shot» (снимок в полный рост). Если это не помогает, можно усилить эффект фразой «wide angle» (широкий угол), что намекнёт алгоритму на необходимость захватить больше пространства вокруг объекта. Ещё один добротный вариант — «extreme long shot» (экстремально дальний план), хотя здесь есть риск, что персонаж превратится в муравья на фоне пейзажа.

Кроме того, опытные «промпт-инженеры» часто используют уточнение «standing on» (стоя на…). Это маленькая хитрость. Ведь если вы напишете, что герой «стоит на мокром асфальте» или «стоит на траве», нейросети придётся нарисовать поверхность под ногами. А чтобы нарисовать поверхность, нужно нарисовать и сами ноги. Логика железная. К слову, описание обуви тоже творит чудеса. Стоит лишь добавить в промт «wearing heavy leather boots» (одет в тяжёлые кожаные ботинки) или «red high heels» (красные туфли на каблуках), как у алгоритма не останется выбора — эти детали нужно визуализировать, а значит, придётся показать ноги целиком.

Влияет ли формат изображения?

Безусловно. Формат кадра, или Aspect Ratio, играет едва ли не ключевую роль. Пытаться вписать стоящего человека в горизонтальный или квадратный кадр — задача не из лёгких. Шанс получить «обрезок» здесь крайне велик. Поэтому при генерации ростовых фигур настоятельно рекомендуется менять соотношение сторон на вертикальное. В Midjourney за это отвечает параметр «—ar 9:16» или «—ar 2:3». Вертикальный «холст» даёт фигуре необходимое пространство, чтобы вытянуться, не упираясь головой в верхнюю рамку, а ногами — в нижнюю. И всё же, если вам кровь из носу нужен горизонтальный кадр для кинематографичности (например, 16:9), придётся использовать более агрессивные команды отдаления камеры, о которых речь пойдёт ниже.

Кинематографические приёмы и оптика

Окунуться в мир фотографии — вот что действительно поможет. Нейросети отлично понимают язык объективов. Если вы укажете в промте «85mm lens», то с высокой долей вероятности получите портрет, так как этот объектив классический «портретник». А вот если сменить цифры, результат изменится кардинально. Для ростовых портретов и захвата окружения отлично подходят широкоугольные значения. Попробуйте вписать «24mm lens» или «35mm lens». Это создаст эффект присутствия и отодвинет виртуальную камеру от объекта. Также неплохо работает термин «fisheye lens» (рыбий глаз), но он даёт специфические искажения, которые не всегда уместны.

Ещё один нюанс касается ракурса. Фраза «view from below» (вид снизу) или «low angle shot» (съёмка с нижнего ракурса) часто вынуждает ИИ рисовать ноги, чтобы показать перспективу и величие персонажа. Это довольно простой, но действенный метод, особенно для эпических героев. Ну и, конечно же, не стоит забывать про «zoom out» — если вы работаете в Midjourney, то уже сгенерированную (но обрезанную) картинку можно отдалить с помощью кнопок Zoom Out 1.5x или 2x, что часто спасает даже безнадёжные варианты.

Готовые решения: повседневный стиль

Перейдём от теории к практике. Допустим, нам нужна девушка в городской среде. Обычный промт «девушка в городе» почти гарантированно выдаст портрет по грудь. Чтобы получить полный рост, нужно собрать воедино все триггеры: описание обуви, поверхности и тип снимка. Рабочая конструкция может выглядеть следующим образом. Сначала задаем главного героя и действие: «A beautiful young woman walking down the street». Сразу же добавляем детали низа: «wearing white sneakers and blue jeans, walking on pavement». Затем уточняем техническую часть: «full body shot, wide angle view, 35mm lens photo». В конце добавляем атмосферу: «sunny day, urban background». Такая связка дает нейросети чёткие границы: есть кеды (нужны ноги), есть тротуар (нужна опора), есть широкий угол (нужно пространство).

Пример промта для копирования:

Full body shot of a stylish woman wearing a beige trench coat and white sneakers, walking on a cobblestone street, wide angle, 35mm photography, natural lighting, urban scenery, detailed shoes, —ar 9:16

Антураж имеет значение: фэнтези и киберпанк

В жанровых сценах добиться полного роста порой даже проще, так как костюмы там сложнее и интереснее. ИИ «любит» рисовать сложные доспехи или футуристические наряды целиком. Возьмём, к примеру, киберпанк. Здесь отлично сработает упоминание неонового отражения на полу. Промт можно построить так: описываем киборга, обязательно упоминаем массивные ботинки и мокрый асфальт.

Пример для киберпанка:

Cyberpunk mercenary standing on wet asphalt under neon rain, full body view, wearing heavy combat boots and tactical gear, futuristic city background, wide shot, cinematic lighting, 24mm lens, —ar 2:3

Заметьте, здесь мы снова применили «якоря» — ботинки и асфальт. А что насчёт фэнтези? Тут часто помогает описание взаимодействия с землей. Например, «стоит в высокой траве» или «стоит на скале».

Пример для фэнтези:

A majestic elven warrior in silver plate armor standing on a rocky cliff edge, wearing armored greaves and boots, full length portrait, wide angle, epic fantasy landscape background, sharp focus, 8k, —ar 9:16

Студийная съёмка и каталоги

Иногда задача стоит более прозаичная — нужен, скажем, лукбук одежды или персонаж на нейтральном фоне для дальнейшего вырезания. Здесь в ход идет профессиональная терминология модной индустрии. Словосочетание «lookbook style» или «catalog shot» само по себе подразумевает демонстрацию одежды целиком. Также помогает фраза «head to toe» (с головы до пят).

Пример для студийного фото:

Fashion model posing in a long red evening dress, high heels, full body shot from head to toe, studio cyclorama background, professional studio lighting, 85mm lens but wide distance, 4k, —ar 2:3

Обратите внимание, что даже при использовании 85mm (портретного фокусного расстояния) мы добавили уточнение «wide distance» (большая дистанция), чтобы компенсировать тягу ИИ к крупным планам.

О чём не стоит забывать: негативные подсказки

Есть и обратная сторона медали — Negative Prompts (негативные промты). Это то, чего мы не хотим видеть на картинке. Во многих интерфейсах Stable Diffusion или Leonardo.ai для этого есть специальное поле. В Midjourney это реализуется через параметр «—no». Что туда вписать? Разумеется, всё, что связано с обрезкой. Стандартный набор выглядит так: «cropped, portrait, close up, headshot, out of frame». Вписывая эти слова в негативный промт, мы как бы говорим нейросети: «Запрещаю делать портреты и обрезать кадр». Это служит отличным страховочным тросом.

Сложности и «подводные камни»

Даже с идеальным промтом промахи случаются. Бывает, что лицо персонажа на общем плане теряет детализацию и превращается в размытое пятно. Это, увы, классическая проблема: чем дальше камера, тем меньше пикселей достаётся лицу. Расстраиваться не стоит. Для этого существует техника «Inpainting» (дорисовка) или «Hires Fix» (исправление высокого разрешения). Вы генерируете общий план, а затем отдельно перерисовываете лицо с большим увеличением. Это процесс не сложный, но кропотливый, требующий усидчивости.

Также иногда всплывают артефакты с ногами — нейросеть может нарисовать три ноги или вывернуть ступни в обратную сторону. Это происходит именно тогда, когда мы слишком настойчиво требуем «full body», а модель не совсем понимает позу. В таких случаях помогает уточнение позы: «walking» (идёт), «sitting on a chair» (сидит на стуле — но тут надо следить, чтобы ноги попали в кадр), «jumping» (прыгает). Динамика часто заставляет алгоритм просчитывать анатомию корректнее.

Стоит ли использовать веса слов?

В Stable Diffusion и некоторых других генераторах можно усиливать значимость конкретных слов с помощью скобок или коэффициентов. Это мощный инструмент. Если нейросеть упорно игнорирует требование полного роста, можно выделить ключевую фразу. Конструкция вида «(full body shot:1.5)» буквально кричит алгоритму о приоритете этой команды. Однако перебарщивать не стоит. Слишком высокий коэффициент (выше 1.6–1.7) может «сломать» картинку, сделав цвета кислотными, а композицию — хаотичной. Баланс здесь важен как никогда. Обычно усиления в 1.2–1.3 вполне достаточно, чтобы переломить упрямство искусственного интеллекта.

Работа с референсами

Ну и, наконец, самый надёжный, хоть и не чисто текстовый метод — использование референса (Image Prompt). Если у вас есть картинка с идеальной композицией в полный рост, «скормите» её нейросети. В Midjourney это делается вставкой ссылки на изображение в начале промта. Это служит своего рода каркасом. Нейросеть считает композицию и поймёт: «Ага, здесь человек занимает вот столько места в кадре, а сверху и снизу есть воздух». В сочетании с текстовым описанием «full body» этот метод даёт практически стопроцентный результат. Главное — подобрать референс, где поза и ракурс максимально близки к желаемому.

Финальный штрих

Генерация персонажа в полный рост — это не магия, а скорее подбор правильного ключа к замку. Экспериментируйте с фокусным расстоянием, не ленитесь описывать обувь и поверхность под ногами, играйте с вертикальным форматом. Нейросети — инструмент гибкий, и они довольно быстро учатся понимать ваши предпочтения. Да, порой придётся сделать десяток неудачных генераций, прежде чем вы получите тот самый шедевр, где герой стоит твёрдо на ногах, а не парит в воздухе без ступней. Но результат, безусловно, оправдает потраченное время и усилия. Теперь ваш персонаж готов к любым приключениям, и ничто не останется за кадром. Удачи в творческих поисках, и пусть каждый ваш промт попадает точно в цель!