Создание реалистичного или художественного изображения двух людей с помощью нейросетей — это задача, которая на первый взгляд кажется элементарной, но на практике часто превращается в настоящий квест с поиском лишних пальцев и неестественных поз. Почему же вместо романтической идиллии мы довольно часто получаем странные гибриды или расфокусированные взгляды? Проблема кроется не столько в алгоритмах, сколько в неумении оператора грамотно сформулировать задачу, ведь машина воспринимает слова буквально, игнорируя контекст, который человеку кажется очевидным. Искушённый обыватель уже знает, что секрет кроется в деталях, освещении и композиционных маркерах. Но чтобы не ошибиться и получить добротный результат с первой попытки, стоит погрузиться в анатомию идеального промта.
С чего начинается выбор?
Определение главных героев — это фундамент, без которого конструкция рухнет. Недостаточно просто написать «мужчина и женщина». Нейросеть дорисует всё остальное на основе случайных шумов, и результат может оказаться удручающим. Начать нужно с физических характеристик, возраста и этнической принадлежности. А если ещё вспомнить про одежду, то точность генерации возрастет в разы. К примеру, запрос «couple» слишком абстрактен. А вот «tall Scandinavian man with a beard and a petite Asian woman with short pink hair» (высокий скандинав с бородой и миниатюрная азиатка с короткими розовыми волосами) уже дает алгоритму жёсткие рамки. Это же правило касается и эмоционального фона. Ведь именно эмоция задает тон всему изображению.
Анатомия запроса
Правильно составленный промт напоминает слоёный пирог. Основу составляет субъект (кто изображен), за ним следует действие (что они делают), далее описывается окружение (где это происходит), и венчает всё это стилистика с техническими параметрами. Не стоит забывать и про освещение. Львиная доля успеха зависит от того, как вы выставите свет словами. Мягкое утреннее солнце создаст одну атмосферу, а жёсткий неоновый свет ночного города — совершенно иную. К слову, порядок слов имеет значение: то, что стоит в начале, нейросеть считает наиболее важным. Поэтому описание внешности и взаимодействия пары всегда должно идти первым блоком.
Как описать взаимодействие?
Сложно ли заставить искусственный интеллект нарисовать объятия? Да, это одна из самых частых проблем. Дело в том, что нейросети иногда путаются в конечностях, когда тела находятся слишком близко друг к другу. Чтобы избежать «каши» из рук и ног, стоит использовать конкретные глаголы. Вместо размытого «romantic interaction» лучше написать:
«holding hands walking down the street» (держатся за руки, идя по улице) или «man hugging woman from behind, woman looking at camera» (мужчина обнимает женщину сзади, женщина смотрит в камеру).
Четкое указание позиций спасает от анатомических казусов. Также неплохо работают фразы вроде «standing back to back» (стоя спиной к спине) или «looking into each other’s eyes» (смотрят друг другу в глаза). Это помогает алгоритму разграничить два объекта.
Кинематографичный реализм
Этот стиль грезят получить многие. Чтобы фото выглядело как кадр из дорогого фильма, нужно добавить в промт характеристики камеры и плёнки. Тут на помощь приходят технические термины. Эффектно выглядит сочетание: «cinematic shot, 35mm film, Kodak Portra 400, depth of field». Это придаст кадру зернистость и правильное размытие фона. Для примера рассмотрим готовый вариант:
«Cinematic shot of a young couple sitting on a rooftop at sunset, looking at the city skyline, warm lighting, lens flare, highly detailed, photorealistic, 8k –ar 16:9»
Здесь мы задали и атмосферу, и техническое исполнение. Результат порадует глубиной и кинематографичностью.
Романтика и уют
Атмосфера тепла требует особого словаря. Здесь солируют прилагательные, описывающие мягкость и комфорт. Представьте себе дождливый день и пару в кафе. Промт для такой сцены может выглядеть так:
«Cozy atmosphere, a happy couple drinking coffee in a cafe by the window, rain outside, condensation on glass, soft warm indoor lighting, knitted sweaters, candid moment, sharp focus».
Обратите внимание на деталь про конденсат на стекле (condensation on glass) — именно такие мелочи, которые мы называем «изюминкой», делают картинку живой. Кандидная съёмка (candid moment) подразумевает, что герои не позируют, а ведут себя естественно, что добавляет снимку доверительности.
Студийная съёмка
Нужен ли сложный фон? Вовсе нет. Иногда задача — сделать акцент исключительно на лицах или модной одежде. В таком случае фон должен быть нейтральным или однотонным. Хороший промт для фэшн-съёмки пары звучит следующим образом:
«Studio photography of a stylish fashion couple posing, wearing futuristic streetwear, solid grey background, professional studio lighting, softbox, high contrast, sharp details, magazine cover quality».
Слова-маркеры здесь — «solid grey background» (сплошной серый фон) и «softbox» (софтбокс). Они дают понять ИИ, что нужно убрать лишний визуальный шум и сосредоточиться на текстурах тканей и кожи. Это выглядит впечатляюще и профессионально.
В стиле Cyberpunk
Неон, дождь и технологии. Жанр киберпанка остается популярным, и пары в этом антураже смотрятся особенно эффектно. Главное — угадать с палитрой. Обычно это сочетание голубого и пурпурного (teal and orange). Попробуйте такой вариант:
«Cyberpunk style, couple standing on a futuristic bridge, neon lights reflecting in puddles, rain, cyborg details on faces, glowing clothes, futuristic city background, night time, volumetric lighting, moody atmosphere».
Здесь важно упомянуть «volumetric lighting» (объёмный свет), чтобы неон создавал красивую дымку вокруг фигур. Такой промт создаст сложное, насыщенное деталями изображение.
Фэнтези и сказка
Тяготеет душа к магии? Нейросети творят чудеса в жанре фэнтези. Но тут есть нюанс: чтобы пара не выглядела как персонажи дешёвой видеоигры, нужно добавлять отсылки к художникам или стилям рисования. К примеру:
«Fantasy illustration of an elf and a human in love, standing in an enchanted forest, glowing magical plants, fireflies, ethereal atmosphere, intricate details, style by Greg Rutkowski and Artgerm, digital art, soft mystical light».
Упоминание конкретных художников (хотя некоторые платформы сейчас это ограничивают, стилистические маркеры типа «oil painting» или «digital art» работают отлично) помогает задать правильный вектор эстетики. «Ethereal» (эфирный/неземной) — отличное слово для создания лёгкой, воздушной атмосферы.
Свадебная эстетика
Ни одна церемония не обходится без памятных фото. И если реальная свадьба бьёт по бюджету, то цифровая — абсолютно бесплатна. Чтобы получить идеальные свадебные кадры, используйте классические приемы. Промт:
«Beautiful wedding photography, bride and groom walking in a blooming garden, white lace dress, black tuxedo, falling petals, sun rays breaking through trees, romantic mood, high resolution, soft focus on background».
Здесь ключевым элементом выступает «sun rays breaking through trees» (солнечные лучи, пробивающиеся сквозь деревья). Этот эффект добавляет торжественности и сакральности моменту. А упоминание кружева (lace) заставит нейросеть детально проработать текстуру платья.
Динамика и движение
Застывшие позы — это скучно. Но как передать движение? Придется использовать слова, обозначающие скорость и направление. Промт для танцующей пары:
«Dynamic shot of a couple dancing tango, red dress flowing in motion, passion, dramatic lighting, motion blur on dress, sharp focus on faces, ballroom background, expressive poses».
Фраза «motion blur» (размытие в движении) критически важна. Она подсказывает, что часть кадра должна быть смазана для эффекта скорости, при этом лица должны оставаться в фокусе. Без этого уточнения ИИ может просто сделать всё изображение нечетким.
Чёрно-белая классика
Эстетичны ли монохромные снимки? Безусловно. Они убирают цветовую наляпистость и оставляют суть — эмоции и свет. Для создания драматичного ч/б портрета подойдет такой запрос:
«Black and white photography, close up portrait of an elderly couple laughing, deep wrinkles, detailed skin texture, emotional connection, high contrast, noir style, harsh lighting».
Здесь мы делаем ставку на текстуру кожи (detailed skin texture) и контраст. Ч/б формат безжалостен к ошибкам освещения, поэтому «harsh lighting» (жёсткий свет) или, наоборот, «rembrandt lighting» (рембрандтовское освещение) помогут создать объём.
Ошибки и артефакты
Впрочем, даже с идеальным промтом можно получить результат с «сюрпризом». Чаще всего всплывут проблемы с глазами. Если лица находятся далеко, нейросеть не прорисовывает зрачки. Спасательный круг в этой ситуации — слова «close up» (крупный план) или «highly detailed eyes». Другой бич генераций — слияние одежды. Если герои одеты в похожие цвета и обнимаются, ИИ может не понять, где заканчивается пиджак одного и начинается платье другого. Поэтому стоит задавать контрастные цвета одежды: «man in black, woman in white». Это поможет алгоритму разграничить зоны ответственности.
Технические модификаторы
Нельзя не упомянуть и про сухие цифры, которые ставятся в конце промта (особенно актуально для Midjourney). Параметр –ar (aspect ratio) отвечает за соотношение сторон. Для портретов пар лучше использовать –ar 2:3 или –ar 4:5, так как вертикальный формат позволяет лучше уместить фигуры в рост. Для кинематографичных сцен подойдет –ar 16:9. Ещё один важный параметр — –stylize (или –s). Значения от 0 до 1000 определяют, насколько вольно нейросеть будет трактовать ваш запрос. Высокие значения (например, –s 750) сделают картинку более художественной, но менее точной по деталям. Низкие — дадут более буквальное исполнение.
Арт-стили и иллюстрация
Фотореализм — не единственный путь. Иногда хочется чего-то рисованного. Популярный запрос — стиль Pixar или Disney. Это беспроигрышный вариант для милых, “няшных” картинок. Промт:
«3D render in Pixar style, cute couple cooking together in a messy kitchen, flour in the air, bright colors, exaggerated expressions, soft lighting, cartoonish look».
Здесь работают слова «exaggerated expressions» (утрированные выражения лиц) — они придают персонажам ту самую мультяшную харизму. А вот для любителей комиксов подойдет: «Comic book style, superhero couple standing on a skyscraper gargoyle, bold lines, halftone patterns, dramatic shadows, action pose, colorful».
Винтажная фотография
Мода циклична, и ретро-снимки снова на пике. Чтобы состарить фото, не нужен фотошоп. Достаточно правильных слов. Попробуйте:
«Polaroid photo from the 90s, grunge style, teenage couple sitting on a skateboard, flash photography, vignette, slightly blurred, scratched film texture, nostalgic mood».
Слово «flash photography» (съёмка со вспышкой) создает эффект той самой «мыльницы» из прошлого. А «scratched film texture» (текстура поцарапанной плёнки) добавляет аутентичности. Получается очень атмосферно и живо, словно кадр из старого семейного альбома.
Работа с локацией
Где разместить героев? Окружение играет роль второй скрипки. Фон не должен перебивать пару, но обязан дополнять историю. Распространенная ошибка — перегружать описание фона деталями. Если вы напишете три строчки про архитектуру замка на заднем плане, нейросеть может забыть про людей или сделать их крошечными муравьями. Придерживайтесь правила: описание фона должно быть в два раза короче описания персонажей. Лаконичное «sunset beach background» (фон закатного пляжа) работает лучше, чем сложносочиненное описание каждого камушка на песке. Ведь фокус должен оставаться на отношениях.
Сложные ракурсы
Стандартный вид «спереди на уровне глаз» быстро надоедает. Хочется динамики. Попробуйте ракурс «from below» (снизу) — это сделает фигуры более величественными и монументальными. Или «drone shot» (съёмка с дрона), если пара лежит на траве. Интересный эффект дает «dutch angle» (голландский угол) — заваленный горизонт, который добавляет тревожности или динамики. Промт:
«Shot from above, couple lying on green grass in a circle shape, heads together, laughing, summer vibes, flowers around, wide angle lens».
Широкоугольный объектив (wide angle lens) позволит захватить больше пространства вокруг, создавая ощущение свободы.
Подводные камни
Казалось бы, всё просто. Но есть и минусы. Нейросети до сих пор плохо понимают сложные социальные взаимодействия. Запрос «пара ссорится» может выдать людей с искаженными от ярости, монструозными лицами. Негативные эмоции даются алгоритмам труднее, чем улыбки. Поэтому, если нужна драма, лучше описывать её через атмосферу (дождь, темные тона, расстояние между фигурами), а не через гримасы. Также стоит быть осторожным с количеством людей. Если написать просто «couple within a crowd» (пара в толпе), есть риск, что лица прохожих сольются с лицами главных героев в жутковатый коллаж. Лучше использовать размытие фона (bokeh), чтобы отделить протагонистов от массовки.
Как улучшить результат?
Не бойтесь экспериментировать с весом слов (в некоторых нейросетях это делается через двоеточие и цифру, например rain::2). Это позволяет усилить конкретный элемент. И, конечно же, используйте итерации. Создать шедевр с первой попытки удается немногим. Обычно требуется от 5 до 10 генераций с небольшой корректировкой промта, чтобы получить то самое изображение. Меняйте синонимы: вместо «beautiful» напишите «gorgeous» или «stunning», вместо «looking at» — «gazing at». Богатство английского языка — это кладезь возможностей для тонкой настройки результата.
Безусловно, нейросети — это мощный инструмент, который в умелых руках превращается в цифровую кисть художника. Главное — не лениться описывать нюансы и помнить, что машина не умеет читать мысли, но отлично читает слова. Практикуйтесь, смешивайте стили, добавляйте неожиданные детали, и тогда ваша галерея пополнится уникальными кадрами, которые не стыдно распечатать и повесить на стену. Процесс этот не сложный, но кропотливый, а результат, несомненно, станет отличным решением для визуализации ваших идей. Перевоплощение завершено.