Подробный промт для описания фотографии (с примерами готовых промтов)

Создание изображений с помощью нейросетей давно перестало быть просто забавным развлечением для гиков, превратившись в полноценный рабочий инструмент для дизайнеров, маркетологов и художников. В сети представлено множество руководств, обещающих научить вас «разговаривать» с искусственным интеллектом за пять минут, но на практике всё оказывается куда сложнее. Вы вводите простой запрос, ожидая шедевр, а получаете нечто с тремя руками или плавающими в воздухе глазами. Знакомая ситуация? Дело в том, что алгоритм не умеет читать мысли, он умеет лишь интерпретировать слова, опираясь на свои математические веса. И часто наше представление о красоте кардинально расходится с «мнением» машины. Но чтобы не ошибиться и получить результат, достойный глянцевой обложки, нужно освоить искусство составления детального, многослойного промта.

Структура запроса

С чего начинается создание идеального описания? С понимания того, что нейросеть — это не живой художник, а сложная база данных. Львиная доля успеха зависит от порядка слов. На первом месте всегда должен стоять главный объект. Это база. Если вы хотите получить портрет девушки, слово «girl» или «woman» должно открывать ваше описание. Далее следует уточнение деталей внешности, одежды и действия. Затем мы переходим к окружению, описывая задний план и локацию. А вот завершать конструкцию стоит техническими параметрами и стилевыми модификаторами.

Кажется, что это довольно просто. Однако дьявол кроется в деталях. Игнорирование этой иерархии часто приводит к тому, что стиль «съедает» персонажа, или фон становится важнее героя. К слову, многие новички совершают одну и ту же ошибку — они пишут абстрактные понятия вроде «красиво» или «вдохновляюще». Для машины эти слова пустой звук. Вместо эмоциональных эпитетов лучше использовать конкретные визуальные характеристики.

Главный герой кадра

Кто находится в центре вашего внимания? Простого существительного здесь будет недостаточно. Нейросети нужен контекст. Если это человек, укажите возраст, этническую принадлежность, цвет волос, выражение лица и даже текстуру кожи. Например, фраза «детализированная кожа с порами» (detailed skin with pores) творит чудеса, превращая пластиковую куклу в живого человека. Не стоит забывать и об одежде. Опишите материал, цвет и фасон. Ведь «красное платье» и «винное бархатное платье в пол» дадут абсолютно разные результаты.

А что если объектом выступает не человек? Принцип остается тем же. Описывая автомобиль, укажите марку, год выпуска (хотя бы примерный стиль эпохи), цвет и состояние кузова. Ржавый постапокалиптический джип и сверкающий футуристический болид требуют разных слов-маркеров. Тем более, что конкретика помогает избежать галлюцинаций нейросети, когда она пытается сама додумать недостающие элементы.

Освещение

Свет — это кисть фотографа. Без правильного света даже самая гениальная композиция будет выглядеть плоско и скучно. Этим правилом не стоит пренебрегать и в генерации. Хотите драмы? Используйте «cinematic lighting» (кинематографичное освещение) или «chiaroscuro» (кьяроскуро) для резкого контраста света и тени. Нужно что-то нежное? Вам поможет «soft morning light» (мягкий утренний свет) или «golden hour» (золотой час).

Довольно часто пользователи забывают про объёмный свет, так называемый «volumetric lighting». А ведь именно он добавляет в кадр атмосферную дымку и лучи, пробивающиеся сквозь листву или окна. Это сразу повышает художественную ценность изображения. Также стоит упомянуть студийное освещение («studio lighting»), если ваша цель — чистый рекламный снимок с идеальной проработкой деталей. Ну и, конечно же, нельзя не упомянуть контровой свет («rim light»), который создает красивый контур вокруг объекта, отделяя его от фона.

Технические параметры

Влияет ли упоминание техники на результат? Безусловно. Нейросети обучались на миллионах реальных фотографий, и теги с названиями камер и объективов прочно осели в их «памяти». Упоминание «shot on 35mm» добавит картинке характерное пленочное зерно и цветопередачу. А если вы напишете «GoPro footage», то получите широкий угол и специфические искажения по краям («рыбий глаз»).

Особый интерес вызывает управление глубиной резкости. Хотите размытый фон? Используйте «bokeh» (боке), «shallow depth of field» (малая глубина резкости) или укажите конкретное значение диафрагмы, например, «f/1.8». Это поможет сфокусировать внимание зрителя на главном объекте. Для максимальной чёткости всего кадра, наоборот, стоит прописать «sharp focus» (чёткий фокус) и «f/8» или выше. К тому же, полезно добавлять маркеры высокого разрешения: «8k», «UHD», «highly detailed». Хотя это и кажется излишеством, такие слова заставляют алгоритм генерировать больше текстур и мелких деталей.

Стилизация и референсы

Нужно ли указывать имена художников или фотографов? Да, но с умом. Ссылка на Грега Рутковски (Greg Rutkowski) уже стала мемом в сообществе, так как его стиль дает отличную детализацию и фэнтезийную атмосферу. Однако спектр референсов не ограничивается одним именем. Если вы жаждете мрачной эстетики, попробуйте добавить «style of H.R. Giger» или «Zdzisław Beksiński». Для киберпанка отлично подойдет упоминание «Blade Runner style» или «neon noir».

Фотореализм — это отдельная история. Чтобы добиться эффекта настоящего снимка, часто используют связку «photorealistic», «hyperrealistic», «Unreal Engine 5 render». Это кажется странным — смешивать фото и игровой движок, но на практике такой микс дает невероятную чёткость и правдоподобность материалов. Ну, а если вы хотите стилизовать изображение под винтаж, смело пишите «Polaroid style», «daguerreotype» или «Kodak Portra 400». Это мгновенно изменит цветовую палитру и добавит характерные артефакты.

Вредно ли использовать негативный промт?

Многие считают, что достаточно описать то, что вы хотите видеть. Но на самом деле не менее важно указать то, чего в кадре быть не должно. Негативный промт — это ваш спасательный круг. Сюда мы отправляем всё, что портит картинку: «ugly», «deformed», «extra fingers», «missing limbs», «blur», «watermark». Это особенно актуально при генерации людей, где нейросети до сих пор любят грешить анатомическими ошибками.

Использование негативного промта позволяет очистить изображение от визуального шума. К слову, туда же можно вписать «cartoon», «illustration» или «drawing», если вы добиваетесь исключительно фотореализма. Это своего рода фильтр, отсекающий ненужные стилистические вариации. Тем более, что грамотно составленный список исключений экономит время, избавляя вас от необходимости перегенерировать одно и то же изображение десятки раз.

Готовые решения: Портрет

Задача не из лёгких. Создать живое лицо, в которое веришь, довольно сложно. Но давайте попробуем собрать всё воедино. Представьте, что нам нужен портрет пожилого рыбака. Наш промт может выглядеть следующим образом.

Сначала задаем объект:

Close-up portrait of an old weathered fisherman with a grey beard, wearing a yellow raincoat and a knitted hat (Крупный план старого обветренного рыбака с седой бородой, в жёлтом дождевике и вязаной шапке).

Здесь мы сразу обозначили, кто это и во что он одет. Далее добавляем атмосферу и детали:

Water droplets on face, intense look, blue eyes looking at camera, stormy ocean background (Капли воды на лице, напряженный взгляд, голубые глаза смотрят в камеру, штормовой океан на фоне).

И наконец, техническая «полировка»:

Dramatic lighting, overcast sky, shot on Sony A7R IV, 85mm lens, hyperrealistic, 8k, sharp focus (Драматичное освещение, пасмурное небо, снято на Sony A7R IV, объектив 85мм, гиперреализм, 8к, чёткий фокус).

Такой запрос не оставит алгоритму шансов на ошибку.

Готовые решения: Интерьер

Интерьерная съёмка требует иного подхода. Здесь важна геометрия и свет. Допустим, мы хотим создать уютную гостиную в скандинавском стиле. Начинаем с описания комнаты:

Spacious living room interior in Scandinavian style, minimalist design, white walls, light wooden floor (Просторный интерьер гостиной в скандинавском стиле, минималистичный дизайн, белые стены, светлый деревянный пол).

Затем наполняем пространство жизнью:

Beige comfy sofa, knitted blanket, many green plants, large window with sheer curtains (Бежевый удобный диван, вязаный плед, много зелёных растений, большое окно с прозрачными занавесками).

И завершаем настройкой света и рендера:

Natural sunlight streaming through window, soft shadows, architectural photography, interior design magazine style, high resolution, photorealistic (Естественный солнечный свет, льющийся из окна, мягкие тени, архитектурная фотография, стиль журнала по дизайну интерьера, высокое разрешение, фотореалистичность).

Заметьте, здесь мы использовали маркер «interior design magazine style», который сразу задает определенный стандарт качества композиции.

Готовые решения: Футуристический пейзаж

А если захотелось чего-то нереального? Киберпанк-город, например. Тут можно дать волю фантазии, но структура должна сохраниться. Объект:

Futuristic cyberpunk city street at night, towering skyscrapers with neon signs (Улица футуристического киберпанк-города ночью, возвышающиеся небоскрёбы с неоновыми вывесками).

Детализация:

Flying cars, wet asphalt reflecting neon lights, crowd of people in techwear, holographic advertisements (Летающие машины, мокрый асфальт, отражающий неоновые огни, толпа людей в технологичной одежде, голографическая реклама).

Стилизация и техника:

Volumetric fog, cyan and magenta color palette, cinematic atmosphere, unreal engine 5 render, ray tracing, detailed textures, blade runner vibes (Объёмный туман, циан и маджента цветовая палитра, кинематографичная атмосфера, рендер Unreal Engine 5, трассировка лучей, детализированные текстуры, вайб «Бегущего по лезвию»).

В данном случае упоминание «ray tracing» (трассировка лучей) подсказывает нейросети, как именно нужно работать с отражениями света, что критически важно для ночных сцен.

Как выбрать ракурс?

От точки съёмки зависит восприятие всей сцены. Если вы просто напишете описание, нейросеть, скорее всего, выдаст стандартный ракурс на уровне глаз. Но это скучно. Попробуйте использовать «low angle shot» (съёмка с нижнего ракурса) для придания объекту величия и монументальности. Это отлично работает со зданиями или супергероями. Или, наоборот, «high angle shot» (съёмка сверху) или даже «drone view» (вид с дрона), чтобы показать масштаб локации.

Для портретов тоже есть свои нюансы. «Profile view» (вид в профиль) или «three-quarter view» (вид в три четверти) часто выглядят интереснее банального анфаса. А вот макросъёмка («macro shot») позволит разглядеть структуру крыльев насекомого или радужку глаза. Главное — не бояться экспериментировать с положением виртуальной камеры. Ведь именно ракурс задает динамику повествования в кадре.

Цветовая палитра

Цвет — это эмоция. Нельзя полагаться на случайный выбор алгоритма. Если вы хотите передать тревогу или холод, укажите «cold color palette», «blue tones», «desaturated». Для радости и энергии подойдут «vibrant colors», «warm tones», «saturated». Можно даже указывать конкретные цветовые схемы, например, «teal and orange», которая так популярна в современном голливудском кино.

Иногда стоит указать отсутствие цвета. Тег «black and white photography» или «monochrome» заставит нейросеть сосредоточиться на формах, контрасте и текстурах, отбросив всё лишнее. Это классический прием, который придает изображению вневременной характер и особый драматизм. Но чтобы чёрно-белое фото не выглядело плоским, обязательно добавьте «high contrast» (высокий контраст).

Подводные камни генерации

Бывает так, что промт идеален, а результат удручающий. Почему так происходит? Часто проблема в перегруженности запроса. Когда вы пытаетесь впихнуть в одно предложение и дракона, и замок, и армию рыцарей, и грозу, и всё это в стиле Пикассо, нейросеть просто теряется. Веса распределяются неравномерно, и на выходе получается каша. Лучше отказаться от лишних деталей в пользу целостности композиции.

Ещё один нюанс — порядок слов в длинных промтах. Нейросети уделяют больше внимания началу предложения. Поэтому, если цвет глаз персонажа для вас критически важен, не прячьте его в самый конец текста из трехсот символов. Перенесите его ближе к началу. Ну и, конечно же, махинации с «весом» слов (использование скобок или коэффициентов, например, (word:1.5)) могут помочь усилить нужный аспект, но с этим инструментом нужно быть осторожным, чтобы не пережечь изображение.

Эксперименты — ключ к успеху

Существует ли универсальная формула идеального промта? К сожалению, нет. Каждая модель, будь то Midjourney, Stable Diffusion или DALL-E, имеет свои предпочтения и «любимые» слова. То, что работает в одной, может выдать полную ерунду в другой. Это процесс постоянного поиска и перебора вариантов. Иногда случайная опечатка или неожиданное сочетание слов могут привести к рождению настоящего шедевра.

Не бойтесь заимствовать идеи. Изучайте работы других авторов, смотрите их промты (если они открыты), анализируйте, какие именно слова дали тот или иной эффект. Это самый быстрый способ обучения. Копируйте, видоизменяйте, смешивайте стили. В конце концов, промпт-инжиниринг — это новая форма творчества, где холстом служит код, а кистью — ваше воображение. Пробуйте, ошибайтесь и создавайте свои уникальные миры. Пусть каждый ваш запрос станет отличным решением и воплотится в изображение, от которого невозможно отвести взгляд.