В сети представлено множество потрясающих изображений, сгенерированных искусственным интеллектом, где поразительная красота лиц контрастирует с пугающим месивом из плоти вместо пальцев. Многим обывателям кажется, что машины уже научились рисовать абсолютно всё, без труда воспроизводя любые фактуры и формы. Однако именно человеческая кисть остаётся той самой ложкой дёгтя для большинства популярных алгоритмов. Зрелище удручающее, когда идеальный портрет портит одна непроработанная деталь. Плохой результат — это не всегда вина разработчиков, ведь нейросеть обучается на миллионах плоских картинок, где пальцы перекрывают друг друга, сливаются с предметами или вообще обрезаны краем кадра. Устав от суеты с бесконечными перегенерациями, многие пользователи просто прячут руки персонажей в карманы или за спину. Но чтобы не ошибиться и получить добротный анатомический результат, нужно в корне изменить сам подход к составлению текстового запроса.
Стоит ли надеяться на случайность?
Попытка решить проблему в лоб. Это заведомо проигрышная стратегия. Нередко творцы просто пишут абстрактное «красивые руки» и искренне ждут чуда от программы. И всё же машина безнадёжно мылит формы. Почему так происходит? Дело в том, что алгоритм не понимает трёхмерной структуры скелета, а лишь угадывает пиксельные паттерны на основе шума. Буквально десятилетие назад правильно передать перспективу фаланг было непосильной роскошью даже для опытных художников, но сейчас нейросети пытаются делать это за три миллисекунды. А вот если добавить в запрос точные медицинские термины, ситуация кардинально меняется. К первой группе спасательных слов относится упоминание костяшек, далее следует скрупулёзное описание суставов, ну и, наконец, замыкает цепочку строгая фиксация длины каждого пальца. Конечно, процесс этот не сложный, но довольно кропотливый. Ведь именно он имеет решающее значение для создания реалистичного антуража всей картины.
Анатомический базис
Фаланги, скрытые глубокой тенью, прорисовать сложнее всего. В представлении многих генераторов пять пальцев очень легко превращаются в шесть или семь просто из-за неправильно падающего освещения. К слову, чтобы избежать подобной жутковатой наляпистости, не стоит забывать о строгой конкретике в описании позы. Выручит точное пространственное указание. Например, положение «открытая ладонь направлена вверх» сработает гораздо лучше, чем расплывчатое «конечность в воздухе». Тем более, что машина весьма хорошо распознаёт команды, напрямую связанные с геометрической симметрией. Нужно отметить важность освещения, подчёркивающего естественный рельеф человеческой кожи. Слишком мягкий свет творит чудеса с лицами, сглаживая неровности, но кисти неизбежно превращает в бесформенные сосиски. Да и самим героям артов визуально комфортнее, когда их пропорции выглядят естественно. Не перегружайте текст лишними эпитетами вроде «божественные» или «идеальные». Лучше отказаться от подобных абстракций в пользу сухих анатомических фактов.
Как выбрать правильный ракурс?
Ракурс решает всё. Это неоспоримо. Ведь именно заданная перспектива диктует нейросети, как именно строить невидимую геометрию объекта. С одной стороны, фронтальный вид раскрытой ладони генерируется довольно просто, с другой — выглядит это зачастую неестественно в сложной динамичной сцене. Сложно ли стилизовать запутанный многослойный жест? Да, но итоговый результат определённо того стоит. Натыкаешься иногда на грандиозный проработанный арт, где персонаж непринуждённо держит предмет, и понимаешь — автор явно использовал хитрые махинации с составлением запроса. Вся суть в том, что пальцы должны активно взаимодействовать с конкретным физическим объектом. Кисть, сжимающая ребристый стеклянный стакан, обхватывающая потёртую кожаную рукоять меча, опирающаяся на шероховатую деревянную поверхность, всегда прорисовывается машиной в разы чётче. Это связано с тем, что сам предмет задаёт жёсткие невидимые границы для каждого пальца по отдельности. Разумеется, придётся потратить изрядную долю времени на подбор единственно верного глагола действия.
Примеры рабочих конструкций
С чего начинается создание безупречного промта? С определения чёткой текстовой структуры. Один из самых популярных видов команд для крупного плана описывает текстуру кожи и микрорельеф (макросъёмка руки, видимые отпечатки пальцев, естественный цвет кожи, студийное освещение). Далее следует композиционный многослойный вариант, где конечность выступает лишь малой частью общего сюжета (человек пьёт горячий кофе, рука крепко держит керамическую кружку, видны четыре пальца и большой палец сбоку). Отдельно стоит упомянуть специфический лексикон для точечного исправления ошибок через частичную перерисовку, когда выделяется исключительно проблемная зона кисти. В таких случаях отлично работает короткий запрос, щедро дополненный негативными командами (пять пальцев, правильная строгая анатомия, чёткие ногти). Последним в списке идёт технический сложный промт с использованием числовых весов (рука:1.5, идеальные пропорции фаланг:1.2). Безусловно, каждая модель искусственного интеллекта реагирует на эти слова по-своему, но львиная доля успешных генераций опирается именно на такой железобетонный каркас.
Вредно ли использовать отрицания?
Многие считают, что негативный блок — это пережиток старых версий генераторов, но на самом деле без него обойтись практически невозможно. Обязательно ли прописывать туда огромные простыни текста? Вовсе нет. Однако именно там оседает весь визуальный мусор, от которого мы отчаянно хотим избавиться. Слишком длинный список отрицаний сильно бьёт по бюджету внимания нейросети, заставляя её безжалостно игнорировать основной сюжетный запрос. Поэтому вносить туда стоит лишь самые частые и раздражающие артефакты. Скелет, изуродованный лишними суставами, слипшиеся бесформенные фаланги, обрубленные неестественные конечности смело отправляем в блок исключений. Кстати, обыватель довольно часто забывает вписать туда такие неочевидные вещи, как «двойная кисть» или «размытые грязные ногти». И всё же злоупотреблять отрицаниями категорически не стоит. Кошелёк генерационных попыток станет значительно легче, если вы просто оставите пару базовых мощных стоп-слов. Это же правило касается и общей стилизации картины. Настоящий рай для генератора наступает в тот момент, когда позитивный и негативный блоки работают в идеальном тандеме, а не противоречат друг другу.
Техники исправления
Пятно яркого света упало на мизинец. Именно с такой мелкой, казалось бы, незначительной детали иногда приходится начинать масштабную перерисовку уже готового изображения.
Зачастую первая попытка выдаёт шикарный изысканный фон, колоритный общий план, но анатомия кистей откровенно подводит автора. Тут на сцену выходит функция локального закрашивания (inpainting). Процесс этот не терпит лишней суеты и спешки. Выделять бракованную зону нужно предельно скрупулёзно, захватывая немного окружающего стабильного пространства. Дело в том, что алгоритму жизненно необходим контекст для правильного бесшовного сращивания пикселей. Ошибки непременно всплывут, если обвести кисть ровно по контуру, оставив на стыке с запястьем грубые заметные швы. Кроме того, стоит понизить параметр силы изменения где-то до отметки ноль целых пять десятых, чтобы машина внезапно не нарисовала там совершенно случайный посторонний предмет. Это надёжно. Потому что проверено. Временем и тысячами попыток. Ну, а если результат всё равно не радует глаз, в дело вступает спасательный круг в виде сторонних профессиональных расширений.
Дополнительные инструменты
Использование визуальных референсов творит настоящие чудеса. Буквально несколько лет назад о таком ювелирном контроле можно было только робко мечтать, а сейчас специальные модули легко позволяют скопировать нужную позу прямо с реальной фотографии. Внушительный технологический скачок. Ведь алгоритму больше не нужно мучительно гадать, где заканчивается указательный палец и где начинается средний. Загруженная фотография собственной ладони, пропущенная через фильтр анализа глубины, переносит сложную геометрию на генерируемого персонажа с поразительной пугающей точностью. Впрочем, и здесь есть свои подводные камни, о которых не стоит забывать. Главная проблема — несоответствие исходных пропорций. Маленькое чадо, облачённое в тяжёлые рыцарские доспехи, получит огромные мужские ручищи, если референс был небрежно взят у взрослого крупного человека. Поэтому масштаб исходника нужно подгонять заранее в графическом редакторе. Естественно, это требует дополнительных ручных манипуляций, но обе стороны медали совершенно очевидны — мы добровольно жертвуем своим временем ради получения безупречного качества. Да и самим создателям цифровых артов гораздо приятнее смотреть на работу, где каждая мелочь разложена по полочкам и заслуживает истинного уважения.
Фокус на деталях
Мелкие глубокие морщинки на суставах. Такая щепетильная детализация довольно часто полностью игнорируется новичками при составлении текстов. А ведь именно качественная текстура превращает глянцевый пластиковый манекен в реалистичного живого человека. Не стоит слепо гнаться исключительно за правильным количеством пальцев, забывая об их визуальном наполнении. К тому же, добавление в промт таких живых фраз, как «выступающие синие вены», «коротко остриженные чистые ногти» или «лёгкий золотистый загар», заставляет алгоритм использовать совершенно другие, более качественные участки своей базы данных. Добротный профессиональный запрос всегда тяготеет к суровому реализму. Например, кисть, испачканная в тёмном машинном масле, перепачканная влажной землёй, украшенная массивными серебряными перстнями, генерируется значительно лучше гладкой идеальной поверхности. Это связано с тем, что грязь или контрастные украшения работают как отличные маркеры пространственной глубины. Они разбивают монотонную скучную заливку кожи на понятные для машины отдельные сегменты. Само собой, этот технический нюанс актуален далеко не для всех художественных стилей, но именно в фотореализме он безоговорочно солирует.
Использование стилей прошлого
Помогает ли прямое упоминание мастеров прошлого при решении анатомических проблем? Несомненно. Кладезь классической академической живописи хранит в себе самые идеальные образцы человеческих пропорций. Как должен выглядеть правильный скелет, искусственный интеллект, обученный на картинах эпохи Возрождения, усвоил просто прекрасно. Достаточно внести свою скромную лепту в виде имени известного творца, чтобы итоговый результат кардинально изменился в лучшую сторону. Вычурный исторический стиль заставляет нейросеть относиться к деталям гораздо бережнее, избегая откровенных мутаций. Конечно, бомонд современных диджитал-художников тоже отлично справляется с этой задачей, предоставляя алгоритмам хорошие примеры, но классика неизменно остаётся непоколебимой прочной базой. Однако не стоит сильно перебарщивать со смешением различных направлений в одной строке. Если в одном промте небрежно скрестить угловатый кубизм и гладкий гиперреализм, на руках бедного персонажа непременно отразится этот неоднозначный визуальный конфликт. Лучше остановиться на чём-то одном, чтобы лишний раз не путать сложную систему.
Освещение как инструмент
Тень от указательного пальца мягко легла на открытую ладонь. С таких крошечных мелочей и выстраивается настоящий трёхмерный объём. Направленный свет играет важнейшую роль в формировании правильного читаемого силуэта. При плоском скучном фронтальном освещении естественные границы между фалангами полностью стираются, из-за чего нейросеть начинает паниковать и хаотично дорисовывать лишнюю плоть. Поэтому в текстовый промт обязательно стоит вписывать жёсткий контровой или драматичный боковой свет. Резкие тёмные тени, падающие сквозь пластиковые жалюзи, пробивающиеся сквозь густую листву, скользящие по влажной коже, отлично подчёркивают каждый изгиб сустава. К слову, холодный неоновый луч часто даёт более чёткий резкий контур, чем расплывчатый тёплый солнечный блик. Многим начинающим авторам кажется, что это просто пустая трата символов в строке запроса, но на самом деле именно свет железной рукой диктует форму. Не скупитесь на максимально детальное описание источника освещения в вашей виртуальной сцене. Это тяжёлый, требующий вдумчивости, но невероятно эффективный способ взять упрямую генерацию под свой полный контроль.
Эксперименты с текстовыми командами всегда требуют огромного терпения и определённой изрядной доли фантазии. Каждая неудачная кривая генерация лишь приближает нас к пониманию того, как именно мыслит бездушная машина, помогая выстроить идеальный алгоритм действий.
Пусть каждый новый созданный арт радует безупречной анатомией, а проблема пугающих шестипалых мутантов навсегда останется в прошлом. Удачи в освоении промт-инжиниринга и создании настоящих цифровых шедевров!