Промты для поз (с примерами готовых промтов)

В сети представлено множество завораживающих картинок, бережно сгенерированных нейросетями, но мало кто догадывается, какой объём кропотливого труда стоит за правильно выстроенным положением тела виртуального персонажа. Плохой сон – это не всегда результат стресса на работе, порой его причиной становятся бесконечные попытки заставить искусственный интеллект нарисовать скрещенные руки без десяти лишних пальцев. Обыватель часто вводит простые команды, надеясь на магию алгоритмов, однако на выходе получает неестественно вывернутые суставы или деревянные манекены. В представлении многих достаточно задать лишь стиль и внешность, позабыв о физике пространства. Но чтобы не ошибиться в генерациях и не сливать бюджет впустую, нужно разложить по полочкам механику создания таких специфических запросов.

Стоит ли доверять случайности?

Задача не из лёгких. Да и сами алгоритмы тяготеют к усреднённым, плоским ракурсам, если им не задать жёсткие рамки. Справляются ли они сами со сложной геометрией тела? Очень редко. Конечно, буквально пару лет назад нейросети вообще выдавали жуткие мясные мутации вместо человеческих фигур, однако сейчас качество шагнуло далеко вперёд. И всё же львиная доля успешных кадров — это скрупулёзный текстовый контроль со стороны автора. Дело в том, что машина совершенно не понимает контекста тяжести или баланса без прямых текстовых указаний.

Вносить ясность в эту хаотичную систему приходится через точные команды, расставленные в правильном порядке. Ведь чем ближе характеристика положения к началу строки, тем точнее нейросеть её отрисует на итоговом холсте.

Портретная съёмка и крупный план

Чуть склонённая набок голова, брошенный через плечо взгляд, лёгкая полуулыбка. Именно с такой незначительной детали обычно начинается добротный поясной портрет. Довольно просто прописать в консоли фразу «looking over the shoulder» или «head tilted», чтобы кадр ожил. К первой группе наиболее стабильных запросов относится «close-up portrait, looking up at the camera, hands near face» (лицо крупным планом, взгляд снизу вверх, руки у лица). Далее следует не менее выигрышный вариант «profile view, looking into the distance, serious expression», который спасает композицию от наляпистости и смыслового шума. А вот для создания загадочного антуража часто выручает короткая строчка «looking back, face partially in shadow». Естественно, не стоит перебарщивать с обилием деталей, иначе лицо неизбежно исказится. К слову, глаза виртуальной модели тоже можно направить отдельной командой «looking straight into eyes», что моментально приковывает внимание к готовой работе.

Как выбрать ракурс для полного роста?

Зрелище удручающее, когда роскошно одетый герой стоит по стойке смирно на фоне грандиозного эпического пейзажа. Чтобы избежать подобной статики, стоит использовать динамичные глаголы. Начать нужно с базовой постановки: «standing confident, hands on hips, crossed legs» (уверенная поза, руки на бёдрах, скрещенные ноги). Затем композицию можно усложнить, добавив в строку «leaning against the wall, one foot up» (опирается на стену, одна нога приподнята). Если же авторы грезят о журнальной эстетике, то на помощь приходит «walking towards the viewer, wind blowing hair, dynamic angle» (идёт на зрителя, волосы развеваются на ветру). Безусловно, каждая такая попытка бьёт по бюджету токенов. Сложно ли комбинировать эти элементы в одной строке? Поначалу да, но со временем нужные сочетания всплывут в памяти автоматически. Тем более, что именно полноростовые генерации выдают максимум ошибок анатомии.

Сложные махинации с руками

Настоящая ложка дёгтя в мире нейросетевого искусства — это генерация кистей. Исконно проблемная зона заставляет энтузиастов изощряться сутками ради одного удачного пиксельного изгиба.

Откажитесь от абстрактных пожеланий. Руки лучше прятать в карманы или давать им конкретное физическое занятие. Безупречный образ можно собрать из фигуры, держащей чашку горячего кофе, опирающейся на массивную деревянную трость, элегантно поправляющей воротник плаща или крепко сжимающей рукоять стального меча. В качестве надёжного промта стоит использовать «hands in pockets, casual stance» (руки в карманах, расслабленная поза). Другой самобытный вариант — «holding a book close to chest, arms crossed» (держит книгу у груди, руки скрещены). Ну, а если требуется показать жест, то лучше ограничится чем-то крупным, вписав «pointing forward with index finger». Кстати, переплетённые пальцы двух разных людей до сих пор остаются непреодолимым препятствием для большинства моделей.

Сидячие положения

Кошелёк станет легче довольно быстро, если пытаться сгенерировать сидящего человека без указания точки опоры. Вся суть в том, что алгоритмы теряют пространственную ориентацию там, где ноги сгибаются в коленях. Хорошо работает прямой запрос «sitting on the floor, hugging knees to chest» (сидит на полу, обхватив колени руками). За ним по шкале надёжности идёт «sitting on a chair, legs crossed, leaning forward» (сидит на стуле, нога на ногу, подавшись вперёд). Особый неподдельный интерес у практиков вызывает поза лотоса — «sitting cross-legged, meditating posture, hands on knees». Она генерируется почти без искажений. И всё же, если геометрия кадра упорно ломается, добавление мебели творит чудеса. Персонаж, сидящий на краю стола (sitting on the edge of the desk, one leg dangling), выглядит весьма реалистично. Да и самим зверькам или людям на картинке словно бы комфортнее, когда под ними есть плотная текстура.

Фотосессия в Токио: Городская эстетика

Окружение напрямую диктует то, как тело будет располагаться в цифровом пространстве. Вписанный в узкие неоновые улочки герой просто не может стоять ровно. Здесь солирует взаимодействие со средой. Один из самых популярных видов генерации в этом ключе — «sitting on neon-lit stairs, looking down, cyberpunk style» (сидит на освещённых неоном ступенях, смотрит вниз). Далее в ход идёт облокачивание на элементы инфраструктуры: «leaning on a street lamp, smoking, raining» (опирается на уличный фонарь, курит, идёт дождь). Отдельно стоит упомянуть динамику в толпе. Чтобы выхватить персонажа из потока, прописывают «standing still in a moving crowd, long exposure effect» (стоит неподвижно в движущейся толпе, эффект длинной выдержки). Разумеется, локация оттягивает на себя часть внимания алгоритма, поэтому позу здесь нужно описывать максимально короткими рублеными фразами.

Что насчёт групповых сцен?

Как заставить двух людей взаимодействовать без слияния в единого многорукого мутанта? Заслуживает истинного уважения тот специалист, который освоил эту магию без использования дополнительных плагинов. Начинать лучше с парных взаимодействий. Скажем, «two women standing back to back, holding hands» (две женщины стоят спина к спине, держатся за руки) — это отличный спасательный круг. К тому же, неплохо срабатывает романтический сеттинг через промт «couple embracing, forehead to forehead, intimate pose» (пара обнимается, лоб ко лбу, интимная поза). Последним в списке идёт приём жёсткой асимметрии: «one person sitting on the ground, another standing over them» (один сидит на земле, другой стоит над ним). Естественно, бракованные кадры здесь польются рекой. Нет смысла переплачивать за дорогие генераторы, пока вы не отточите эти связки на бесплатных версиях.

Ошибки генерации

Всплывут ли жуткие артефакты при использовании слишком длинных конструкций? Обязательно всплывут. Многие новички считают, что детальное перечисление каждого сустава улучшит результат, но на самом деле машина просто сходит с ума от переизбытка вводных данных.

Главное достояние опытного промт-инженера — это умение безжалостно отсекать словесный мусор. Из-за обилия противоречивых команд искусственный интеллект часто ломает шеи и выворачивает стопы.

Кроме того, нельзя не упомянуть важность негативных промтов. Туда традиционно вписывают такие блокираторы как «mutated hands, extra limbs, bad anatomy, deformed». Это же правило касается и любых экстремальных пропорций. Запросив «очень длинные ноги», вы рискуете получить трёхметровые конечности. Поэтому лучше отказаться от радикальных эпитетов. Ну и, конечно же, не стоит забывать про соотношение сторон самого холста, ведь вытянутые вертикально картинки гораздо лучше подходят для генерации человека во весь рост.

Освоение искусства правильного составления запросов — это изматывающий, но безумно увлекательный процесс. Пусть каждый новый сгенерированный образ радует домочадцев и заказчиков правильными пропорциями, а капризные алгоритмы понимают вашу творческую задумку с полуслова. Смело экспериментируйте с нестандартными ракурсами, ищите новые точки опоры для цифровых тел и не бойтесь безжалостно удалять неудачные мутации. Удачи в создании безупречных виртуальных шедевров, которые запомнятся надолго.