В памяти каждого из нас наверняка хранятся воспоминания о бесконечных попытках сделать удачный совместный снимок с родным человеком, когда то свет падает неудачно, то выражение лица оставляет желать лучшего. Семейные фотосессии — это зачастую стресс, споры и сотни удаленных дублей, которые так никогда и не попадут в рамку на стене или в ленту социальной сети. Технологии же шагнули далеко вперёд, предложив нам альтернативу, где идеальную композицию, освещение и даже эмоции можно создать с нуля, не выходя из дома. Но чтобы результат порадовал, а не испугал лишними пальцами или странной геометрией лиц, нужно подобрать правильные слова.
Сложно ли составить запрос?
Казалось бы, что может быть проще, чем написать «две сестры» и нажать кнопку генерации? Однако на практике всё обстоит несколько иначе. Нейросети, будь то Midjourney или Stable Diffusion, воспринимают команды буквально, но при этом обладают собственной, порой весьма специфичной логикой. Если вы не укажете детали, искусственный интеллект додумает их за вас. И результат этот может оказаться довольно непредсказуемым. Задача не из лёгких. Ведь машине нужно объяснить не только то, кого мы видим, но и как эти люди взаимодействуют, во что одеты и где находятся. Поэтому начинать работу стоит с чёткого понимания структуры промта.
Анатомия идеального описания
Любой добротный запрос строится по определённой схеме, игнорировать которую — значит обречь себя на получение посредственного результата. Фундаментом здесь выступает описание главных героев (Subject). Вы должны чётко обозначить, что на изображении именно две сестры (two sisters), указать их примерный возраст, цвет волос и даже, возможно, степень внешнего сходства. Далее следует описание действия (Action). Статичные позы выглядят скучно, а вот взаимодействие оживляет кадр. Смеются ли они, обнимаются или бегут по пляжу? Следующий важный слой — это окружение (Environment). Без него героини повиснут в вакууме или окажутся на фоне размытых, непонятных декораций. Ну и, конечно же, стиль (Style) и технические параметры. Именно они отвечают за то, будет ли картинка похожа на фотографию с дорогой камеры или на рисунок акварелью.
Сценарии для реализма
Большинство пользователей грезят именно о фотореалистичных изображениях, которые сложно отличить от настоящих снимков. Чтобы добиться такого эффекта, в промте должны фигурировать технические термины из мира фотографии. Особый интерес вызывает использование конкретных моделей камер и плёнки. Например, для создания тёплого, лампового настроения, можно использовать следующую конструкцию:
«Two sisters hugging, laughing, sitting in a cozy cafe, mugs of hot chocolate, natural lighting, shot on Kodak Portra 400, 35mm lens, hyperrealistic, 8k –v 6.0»
Здесь мы задаём не только сюжет, но и текстуру изображения. Львиная доля успеха зависит от освещения. Если добавить слова «golden hour» (золотой час) или «cinematic lighting» (кинематографичное освещение), картинка сразу приобретёт объём и глубину.
А вот другой вариант, более динамичный. Представьте прогулку в парке. Промт может звучать так: «Full body shot of two sisters walking in autumn park, falling leaves, holding hands, wearing beige trench coats, dynamic pose, candid photography, depth of field, detailed faces, soft sunlight». Обратите внимание на словосочетание «candid photography». Оно творит чудеса, заставляя нейросеть генерировать случайные, живые кадры, будто фотограф подловил момент, а не выстраивал композицию часами.
Стоит ли экспериментировать со стилями?
Безусловно. Ограничиваться одним лишь реализмом — значит упускать массу возможностей. Нейросети позволяют перенести вас и вашу сестру в любые вселенные. Хотите почувствовать себя героинями мультфильма Pixar? Тогда стоит попробовать такой запрос:
«Two cute sisters, 3d render style, Disney Pixar style, big eyes, expressive faces, colorful dresses, magic forest background, bright colors, high detail, unreal engine 5»
Результат получится ярким, сочным и очень добрым. Это отличный способ создать аватарку или открытку для семейного чата.
Для любителей более художественных и утончённых образов подойдёт стилизация под масляную живопись или фэшн-иллюстрацию. Здесь уже в ход идут другие маркеры. Попробуйте ввести: «Portrait of two sisters, art nouveau style, intricate details, flowers in hair, elegant poses, soft pastel colors, oil painting texture, masterpiece». Такой подход превращает обычное изображение в настоящее произведение искусства. А если душа тяготеет к чему-то более современному и дерзкому, можно окунуться в эстетику киберпанка: «Two sisters, futuristic warriors, neon city background, glowing armor, cyberpunk style, pink and blue lighting, digital art, sharp focus».
Взаимодействие и эмоции
Самая частая ошибка новичков — это «деревянные» лица персонажей. Чтобы этого избежать, нужно насыщать запрос эмоциональными маркерами. Не скупитесь на прилагательные. Слова «joyful» (радостный), «thoughtful» (задумчивый), «surprised» (удивлённый) кардинально меняют настроение кадра. Однако важно следить за тем, чтобы эмоции соответствовали контексту. Странно видеть безудержный смех в мрачной готической обстановке (хотя и такой контраст может быть художественным приёмом).
Отдельно стоит упомянуть взаимодействие взглядов. Фраза «looking at each other» (смотрят друг на друга) создаёт интимную, доверительную атмосферу. А вот «looking at camera» (смотрят в камеру) делает снимок более постановочным, официальным. Если же вы хотите добавить нотку загадочности, попробуйте конструкцию «looking away» (смотрят вдаль). Это довольно простой, но действенный приём. К слову, описание одежды тоже играет не последнюю роль. Если не указать наряды, нейросеть может одеть сестёр во что-то усреднённое и скучное. Лучше прописать: «wearing matching boho dresses» (в одинаковых платьях бохо) или, наоборот, сыграть на контрасте: «one sister in black leather jacket, other in white lace dress».
Подводные камни генерации
Даже самый скрупулёзный промт не гарантирует отсутствия ошибок. Чаще всего пользователи натыкаются на проблемы с конечностями и лицами. Нейросеть иногда «дарит» героям лишние пальцы или сливает их тела в единую массу. Бороться с этим помогает Negative Prompt (негативный промт) — поле, куда мы вписываем то, чего на картинке быть не должно. Туда стоит смело отправлять такие слова, как: «deformed, bad anatomy, disfigured, extra limbs, fused fingers, blurry faces». Это своего рода спасательный круг, который отсекает откровенный брак.
Ещё один нюанс — это «похожесть». Если вы хотите, чтобы сгенерированные сёстры были похожи на вас реальных, одного текстового описания будет мало. В этом случае на помощь приходят функции Image-to-Image (генерация на основе картинки) или использование Face Swap (замена лиц) уже на готовом изображении. Но даже без использования референсов можно добиться условного сходства, детально описав типаж: «blue eyes, blonde curly hair, round face, freckles». Чем точнее описание, тем выше шанс, что результат совпадёт с ожиданиями.
Готовые шаблоны для разных ситуаций
Чтобы вам было проще начать, разберём несколько конкретных сценариев, которые можно просто скопировать и, при необходимости, слегка доработать под себя.
Для любителей путешествий и атмосферы приключений подойдёт такой вариант. Представьте: горы, ветер, свобода. Промт будет следующим:
«Wide shot, two sisters standing on a mountain peak, back view, looking at vast landscape, snowy mountains, wearing hiking gear, windy hair, epic clouds, adventure atmosphere, cinematic composition, 8k»
Здесь мы намеренно используем вид со спины (back view), что упрощает задачу нейросети с лицами и добавляет кадру эпичности. Главное достояние такого снимка — масштаб и атмосфера.
Если же хочется уютного домашнего вайба, то сценарий меняется. Мы переносимся в спальню или гостиную. Запрос:
«Top down view, two sisters lying on a bed head to head, reading books, cozy sweaters, warm lighting, lazy sunday morning atmosphere, highly detailed, soft focus»
Ракурс сверху (top down view) — это всегда беспроигрышный вариант для демонстрации близости и доверия.
Для тех, кто хочет создать стилизованный портрет в духе глянцевого журнала, стоит использовать студийные термины.
«Close up portrait of two gorgeous sisters, fashion makeup, jewelry, studio lighting, black background, rim light, high contrast, vogue magazine style, sharp focus»
Свет здесь солирует. Упоминание «rim light» (контровой свет) создаёт красивый ореол вокруг силуэтов, отделяя их от фона. Это выглядит впечатляюще и дорого.
Ну и, наконец, вариант для фанатов фэнтези. Ведь где ещё, как не в нейросети, можно примерить на себя роль эльфийских принцесс?
«Two elf sisters, long ears, magical glowing forest, holding a lantern, mystical atmosphere, fireflies, fantasy art, intricate costumes, ethereal beauty, Greg Rutkowski style»
Ссылка на конкретного художника (в данном случае Грега Рутковски, чей стиль очень популярен в ИИ-арте) помогает задать правильный вектор стилизации.
Технические тонкости и настройки
Разумеется, сам текст промта — это ещё не всё. Важно обращать внимание на соотношение сторон (aspect ratio). По умолчанию многие нейросети делают квадратные картинки (1:1). Но для портрета двух человек, особенно если они стоят рядом, лучше подходит формат 3:2 или 16:9. В Midjourney это задаётся параметром «–ar 3:2» в конце промта. Горизонтальная ориентация даёт больше воздуха и пространства для манёвра. А вот для ростовых портретов или фото для сторис лучше выбрать вертикальный формат 2:3 («–ar 2:3»).
Степень стилизации (stylize) тоже имеет значение. В той же Midjourney параметр «–s» отвечает за то, насколько вольно искусственный интеллект будет трактовать ваш запрос. Низкие значения (например, –s 50) заставляют сеть строго следовать тексту. Высокие (–s 750) дают ей творческую свободу. Порой это приводит к неожиданным, но грандиозным результатам. Однако здесь есть риск, что ИИ увлечётся и забудет про какие-то детали вашего описания. Золотая середина обычно находится где-то в районе 250.
Можно ли улучшить результат?
Процесс генерации — это всегда перебор вариантов. Редко когда первый же выданный вариант оказывается идеальным. Обычно приходится генерировать сетку из четырёх изображений, выбирать лучшее и делать его вариации (V1-V4). Или же использовать функцию Upscale для увеличения разрешения. Не стоит расстраиваться, если с первого раза у одной из сестёр окажется три руки или глаза будут смотреть в разные стороны. Это лишь повод скорректировать промт или запустить генерацию заново. Иногда достаточно просто поменять порядок слов, вынеся самое важное в начало предложения. Ведь именно первые слова имеют для нейросети наибольший вес.
Также полезно использовать весовые коэффициенты. Если вам важно, чтобы лес на фоне был так же значим, как и сами фигуры, можно поиграть с синтаксисом (в разных нейросетях он свой, часто это двоеточия с цифрами). Но для начала достаточно просто описать сцену максимально подробно и красочно.
Свет и цвет как инструменты настроения
Нельзя не упомянуть о колористике. Цвет — это мощнейший инструмент воздействия на восприятие. Холодные тона (синий, голубой, серебристый) создают ощущение отстранённости, свежести или меланхолии. Тёплые (оранжевый, жёлтый, красный) дарят уют и радость. Попробуйте добавить в промт такие фразы, как «pastel color palette» (пастельная палитра) для нежности или «vibrant neon colors» (вибрирующие неоновые цвета) для драйва. ИИ отлично понимает такие запросы.
Интересный эффект даёт игра с погодой. Дождь (rainy day), туман (foggy), снегопад (snowfall) — всё это кардинально меняет антураж. Снимок двух сестёр под одним зонтом во время дождя сразу приобретает сюжетность и драматизм. «Two sisters under transparent umbrella, rain, city lights reflection, wet asphalt, melancholic atmosphere, cinematic shot». Такая картинка расскажет историю лучше, чем просто портрет на белом фоне.
И всё-таки, главное — идея
Технологии технологиями, но душа снимка рождается в вашей голове. Нейросеть — это лишь кисть в руках художника. Она не придумает за вас трогательный момент или забавную ситуацию. Поэтому перед тем, как писать промт, стоит на секунду закрыть глаза и представить ту самую идеальную картинку. Вспомнить детство, общие шутки или мечты. И тогда сухой набор слов превратится в волшебное заклинание.
Генерация изображений — процесс захватывающий и затягивающий. Он позволяет увидеть себя и близких в таких амплуа, которые в реальной жизни недостижимы. Это отличная возможность создать уникальный подарок, украсить интерьер или просто посмеяться вместе с сестрой над результатом. Пусть ваши виртуальные эксперименты принесут вам массу положительных эмоций и пополнят коллекцию действительно красивых кадров.