Создание изображений с помощью нейросетей давно перестало быть магией для избранных, превратившись в рутинный инструмент для дизайнеров, маркетологов и просто любителей цифрового искусства. Кажется, что может быть проще: ввёл пару слов в строку генерации, нажал кнопку и получил шедевр, достойный обложки глянцевого журнала. Однако на практике обыватель довольно часто сталкивается с тем, что результат напоминает скорее сюрреалистичный кошмар, чем задуманную сцену: лишние пальцы, «пластиковая» кожа или совершенно не то освещение, которое рисовалось в воображении. Разочарование в таких случаях наступает мгновенно. Но чтобы не ошибиться и не тратить часы на перебор вариантов, стоит разобраться в самой механике составления запросов и запастись проверенными шаблонами.
Как работает идеальный промт?
Многие ошибочно полагают, что искусственный интеллект понимает абстрактные понятия так же, как человек. Это вовсе не так. Алгоритм мыслит тегами, визуальными паттернами и математическими векторами. Ему нужна конкретика. Сложно ли это принять? Пожалуй, да, ведь нам свойственно мыслить образами. Секрет успеха кроется в детализации. Вместо простого «красивая девушка» профессионал напишет целую историю, включающую описание внешности, одежды, локации, типа освещения и даже модели камеры. И здесь на помощь приходят готовые формулы, которые уже проверены тысячами генераций.
Анатомия запроса: Важные детали
Любой добротный промт строится по определенной структуре, напоминающей слоёный пирог. Основой всегда выступает главный объект. Это может быть человек, животное или предмет. Далее следует описание действия или позы, ведь статика редко выглядит выигрышно. Третьим слоем накладывается окружение — фон, декорации, погода. А венчает эту конструкцию блок технических параметров, отвечающих за стилистику и качество картинки. Стоит отметить, что порядок слов тоже имеет значение: чем ближе слово к началу, тем больший вес оно имеет для нейросети.
Портретная съёмка
Самый популярный жанр в генерациях — это, безусловно, портрет. Здесь важно всё: от цвета глаз до текстуры кожи. Для получения реалистичного результата, который сложно отличить от фотографии, необходимо указывать параметры объектива и тип плёнки.
Если ваша цель — кинематографичный мужской портрет с драматичным светом, можно использовать следующую заготовку. Она включает в себя описание возраста, эмоций и освещения. Выглядит запрос примерно так:
«Hyper-realistic portrait of a weathered old sailor with a thick gray beard, intense blue eyes looking into the distance, wearing a yellow raincoat, stormy ocean background, dramatic dark lighting, rain droplets on face, shot on Sony A7R IV, 85mm lens, f/1.8, highly detailed skin texture, 8k resolution, cinematic atmosphere».
Обратите внимание на детали. Мы указали не просто «старик», а «потрёпанный старый моряк». Упомянули камеру Sony A7R IV и объектив 85mm, который традиционно считается портретным. Это даёт нейросети сигнал, что нужно размыть фон (боке) и сфокусироваться на лице.
Женский портрет в студии
А вот для создания гламурного женского образа подход нужен иной. Здесь мы делаем ставку на мягкий свет и чистоту кадра.
Примером может служить такой промт:
«Studio photography of a beautiful young woman with long flowing red hair, wearing an elegant white silk dress, soft studio lighting, rim light, neutral beige background, fashion photography style, shot on Canon EOS R5, 50mm lens, sharp focus, magazine quality, natural makeup, high detailed eyes».
Здесь ключевую роль играет фраза «soft studio lighting» (мягкий студийный свет) и «rim light» (контровой свет), который отделяет модель от фона, придавая объём волосам. Такой запрос довольно часто выдает результат, который можно сразу отправлять в портфолио.
Уличная фотография и киберпанк
Городская среда требует передачи динамики и атмосферы. Очень популярным направлением сейчас является киберпанк или неон-нуар. Эстетичны ли такие кадры? Безусловно, они приковывают внимание своей цветовой палитрой.
Для погружения в неоновый город подойдёт такой вариант:
«Cyberpunk street style photography, a girl with futuristic chrome implants standing in a rainy neon-lit alleyway in Tokyo, wearing a holographic transparent jacket, reflection in puddles, blue and pink neon lights, night time, cinematic shot, volumetric lighting, ray tracing, Unreal Engine 5 render style, wide angle lens 24mm, hyperdetailed».
В этом случае мы намеренно добавляем упоминание «Unreal Engine 5 render style» и «ray tracing». Хотя это термины из компьютерной графики, они заставляют нейросеть (особенно Midjourney) делать освещение максимально объёмным и «дорогим». А широкоугольный объектив 24mm позволяет захватить больше окружения.
Предметная съёмка и еда
Не стоит забывать и о коммерческой фотографии. Бизнесу часто нужны “вкусные” кадры товаров или блюд. И нейросеть справляется с этим на ура, если знать правильные слова. Главное здесь — аппетитность и текстура.
Для рекламы, скажем, бургера, запрос может выглядеть так:
«Professional food photography of a juicy gourmet burger with melting cheddar cheese, fresh lettuce, tomatoes, sesame bun, steam rising, dark rustic wooden table background, professional kitchen lighting, macro shot, shallow depth of field, 4k, hyper-realistic, mouth-watering, commercial aesthetics».
Словосочетание «macro shot» (макросъёмка) здесь критически важно. Оно приближает камеру к объекту, позволяя рассмотреть капли жира, текстуру мяса и кунжут на булочке. А «steam rising» (поднимающийся пар) добавляет жизни статичному кадру.
Локация имеет значение
Иногда главным героем снимка становится само место. Пейзажная фотография в исполнении ИИ может быть захватывающей дух. Но чтобы не получить плоскую картинку, нужно играть со временем суток и погодой.
Представим, что нам нужен величественный горный пейзаж. Пробуем следующее:
«Breathtaking landscape photography of jagged snowy mountain peaks during golden hour, calm alpine lake reflection, pine forest in the foreground, epic clouds, warm sunlight, nature photography, National Geographic style, wide angle shot, high resolution, detailed textures, HDR».
«Golden hour» (золотой час) — это волшебное словосочетание для любого фотографа, означающее время перед закатом, когда свет становится мягким и тёплым. Указание стиля «National Geographic» задаёт определенную планку качества и реализма.
Стиль и мода: Как описать?
Фэшн-съёмка — это отдельный мир со своими законами. Тут важна поза, ткань и даже настроение модели. Одежда не должна выглядеть как нарисованная броня из видеоигры (если это не задумано специально).
Попробуем создать образ в стиле «от кутюр»:
«Full body shot of a fashion model walking on a runway, wearing an avant-garde dress made of glass shards and feathers, dramatic spotlight, audience in the dark blurred background, dynamic pose, high fashion, Vogue magazine style, intricate details, 8k, photorealistic».
Фраза «Full body shot» (средний план в полный рост) гарантирует, что нейросеть не обрежет ноги модели, что случается довольно часто. А «dynamic pose» добавляет движения ткани и волосам.
Технические параметры
В чем же соль качественного промта? В “техническом хвосте” запроса. Именно эти непонятные на первый взгляд слова превращают рисунок в фотографию. К первой группе относится описание оборудования. Упоминание конкретных камер (Leica, Hasselblad, Sony, Canon) меняет цветопередачу. Leica дает более винтажный, плёночный цвет, а Sony — резкий и цифровой.
Следующий важный критерий — параметры съёмки. Aperture (диафрагма) f/1.8 или f/2.8 размывает фон, а f/8 или f/16 делает резким всё изображение. Shutter speed (выдержка) помогает заморозить движение или размазать его.
Ну и, наконец, рендер-движки и разрешения. Слова «Octane render», «Unreal Engine», «8k», «UHD» работают как усилители качества, заставляя алгоритм прорисовывать мельчайшие детали.
Чего стоит избегать?
Однако в погоне за детализацией легко перегнуть палку. Не стоит перегружать промт противоречивыми командами. Если вы напишете «солнечный день» и «ночное небо» одновременно, нейросеть выдаст нечто среднее и странное. Также лучше отказаться от слишком длинных предложений с сложной грамматикой. ИИ лучше понимает короткие фразы, разделенные запятыми.
Ещё один подводный камень — абстракции. Слова вроде «потрясающий», «великолепный», «невероятный» сами по себе не несут визуальной информации. Они работают только в связке с конкретикой. «Потрясающий свет» — это непонятно. «Потрясающий закатный свет, пробивающийся сквозь листву» — это уже инструкция к действию.
Чёрно-белая классика
Отдельно стоит упомянуть монохромную фотографию. Она требует особого внимания к контрасту и теням, так как цвет больше не отвлекает зрителя.
Пример для атмосферного ч/б портрета:
«Black and white photography, close-up portrait of an old jazz musician playing saxophone, smoke filled jazz club atmosphere, strong contrast, noir style, rim lighting, emotional expression, grain film texture, Ilford HP5 Plus film stock emulation, timeless look».
Здесь мы используем название конкретной чёрно-белой плёнки «Ilford HP5 Plus», что дает изображению характерное зерно и контрастность. Это нюанс, о котором знают немногие, но он творит чудеса.
Фэнтези и косплей
Геймеры и фанаты фэнтези часто используют ИИ для визуализации персонажей. Тут границы реальности стираются, но запрос всё равно должен быть чётким.
Пример эльфийской принцессы:
«Fantasy photography of an elven princess in an ancient forest, wearing silver intricate armor with glowing runes, magical ambiance, fireflies around, mystical fog, moonlight filtering through giant trees, ethereal beauty, sharp focus, cinematic composition, Lord of the Rings style, highly detailed face».
Ссылки на известные вселенные (как «Lord of the Rings style») помогают нейросети сразу понять требуемую эстетику и цветовую гамму.
Работа с освещением
Свет — это кисть фотографа. И в промтах ему нужно уделять львиную долю внимания.
Бывает разный свет. Cinematic lighting (кинематографичный) дает драматизм. Natural lighting (естественный) подходит для лайфстайл-фото. Volumetric lighting (объёмный) создает видимые лучи света в воздухе, пыль или туман. Rembrandt lighting (свет Рембрандта) — классическая схема для портретов с треугольником света на щёке.
Попробуйте добавить в свой промт фразу «God rays» (божественные лучи), и вы увидите, как преобразится пейзаж или интерьер церкви. Это выглядит впечатляюще.
Масштабирование и форматы
Нельзя не упомянуть и о соотношении сторон. По умолчанию многие сети генерируют квадрат (1:1). Но для кинематографичности часто нужен формат 16:9, а для мобильных обоев — 9:16.
В Midjourney, например, это регулируется параметром «–ar 16:9» в конце промта. В Stable Diffusion — настройками ползунков. Не стоит забывать об этом, иначе композиция кадра может быть безвозвратно испорчена при попытке кадрирования уже готового квадрата.
Советы по доработке (Inpainting)
Даже идеальный промт не всегда дает 100% результат с первого раза. Иногда композиция хороша, но лицо подкачало. В этом случае не нужно перегенерировать всё изображение.
Существует техника Inpainting (дорисовка). Вы выделяете неудачный участок и пишете новый промт только для него. Например, «highly detailed eyes, blue color». Это спасательный круг для тех, кто хочет довести работу до совершенства, не теряя удачный общий план. К слову, это требует определенной скрупулезности, но результат того стоит.
Пробуйте, экспериментируйте, смешивайте стили. Нейросети — это, в конце концов, всего лишь инструмент, а настоящим творцом остаётесь вы. Ваше видение и умение облечь мысли в слова определяют конечный результат. Пусть каждая ваша генерация становится маленьким шедевром, который порадует глаз и вдохновит на новые идеи. Удачи в творческом поиске и чистых вам рендеров!