Промты для фотографий (с примерами готовых промтов)

Создание изображений с помощью нейросетей давно перестало быть уделом избранных техно-гиков, превратившись в увлекательное хобби для миллионов, однако результат далеко не всегда оправдывает ожидания. Наверняка каждый, кто хоть раз пытался сгенерировать «шедевр» в Midjourney или Stable Diffusion, сталкивался с тем, что на экране появлялось нечто невразумительное: люди с шестью пальцами, пластмассовые лица или архитектура, нарушающая все законы физики. Казалось бы, достаточно просто ввести описание, но искусственный интеллект — собеседник капризный, требующий особого подхода и точности формулировок. Проблема зачастую кроется не в самой модели, а в неумении пользователя грамотно составить техническое задание. Поэтому перед тем, как обвинять алгоритмы в глупости, стоит разобраться в самой структуре запроса и научиться говорить с машиной на одном языке.

Что такое промт?

По своей сути промт — это текстовая команда, интерпретируемая нейросетью как набор визуальных инструкций. Сложно ли её составить? На первый взгляд — нет, но дьявол, как известно, кроется в деталях. Обыватель часто пишет: «Кот сидит на заборе», и получает вполне ожидаемый, но скучный, плоский результат. Искушённый же пользователь превратит этот запрос в целое повествование, насыщенное техническими терминами, указаниями на освещение и стиль. Нейросеть не умеет читать мысли, она работает с тем набором токенов, который вы ей скармливаете. И чем точнее, богаче и структурированнее будет этот набор, тем выше шансы получить добротный, впечатляющий результат. Главное здесь — не скатываться в графоманию, а использовать ключевые слова-триггеры, которые алгоритм воспринимает как руководство к действию.

Анатомия идеального запроса

Любой качественный промт строится по определенной логике, напоминающей слоёный пирог. Начинать всегда стоит с главного объекта (Subject). Это может быть человек, животное, автомобиль или абстрактная фигура. Но просто назвать объект мало. Нужно дать ему характеристику. Не просто «женщина», а «пожилая женщина с глубокими морщинами и мудрым взглядом». Далее следует действие (Action) или состояние. Что делает наш герой? Смотрит вдаль? Смеётся? Или, быть может, спит? Именно глагол вдыхает жизнь в статичную картинку. Третьим слоем идёт окружение (Environment). Где происходит действие? В лесу, в киберпанк-городе или в студии с белым фоном? Без контекста объект повиснет в вакууме.

Дополняет образ техническое описание (Lighting & Camera). Это, пожалуй, самая важная часть для достижения фотореализма. Здесь мы указываем тип освещения, модель камеры, фокусное расстояние и даже плёнку. И, наконец, стиль (Style). Хотим ли мы получить картину маслом, 3D-рендер или чёрно-белое фото? Все эти элементы, собранные воедино, и формируют тот самый «магический код». Впрочем, порядок слов тоже имеет значение: то, что стоит в начале, нейросеть считает наиболее важным. Ближе к концу влияние слов ослабевает.

Свет и камера

Свет. Без него фотографии не существует. Именно освещение задаёт настроение кадру, делает его объёмным или плоским, драматичным или воздушным. Для нейросети слова, описывающие свет, являются мощнейшими модификаторами. Довольно часто новички игнорируют этот аспект, полагаясь на случайность. А зря. Ведь стоит добавить фразу «cinematic lighting» (кинематографичное освещение), как картинка преображается. Появляются глубокие тени, выразительные блики. Если же ваша цель — мягкий портрет, то лучшим решением станет «soft lighting» или «natural light». Для любителей драматизма подойдёт «rim lighting» (контровой свет), который очерчивает силуэт объекта светящимся контуром. А вот «volumetric lighting» создаст те самые красивые лучи света, пробивающиеся сквозь пыль или туман, добавляя сцене эпичности.

Не стоит забывать и о настройках виртуальной камеры. ИИ обучен на миллионах снимков с реальных фотоаппаратов, поэтому он прекрасно понимает такие термины, как «ISO», «aperture» (диафрагма) и «focal length» (фокусное расстояние). Хотите красивое размытие фона? Смело пишите «bokeh» или «f/1.8». Нужно, чтобы в кадр попало как можно больше пространства? Используйте «wide angle» или «16mm». Для портретов же идеальным выбором станет «85mm» или «100mm lens» — это позволит избежать искажений лица, характерных для широкого угла. Указание конкретной модели камеры, например, «shot on Sony A7R IV» или «Kodak Portra 400», также придаст изображению определённый цветовой оттенок и зернистость, характерную для плёнки или цифры.

Готовые решения: Портреты

С портретной съёмкой у нейросетей отношения особые. С одной стороны, они научились генерировать лица пугающе реалистично, с другой — могут «наградить» модель лишними глазами. Чтобы получить качественный результат, используйте проверенные конструкции. Вот пример довольно мощного промта для создания ультра-реалистичного портрета.

Промт:
Hyper-realistic close-up portrait of a young scandinavian woman with freckles, icy blue eyes looking at camera, natural skin texture, pores visible, messy blonde hair bun, soft morning window light, shot on Canon EOS R5, 85mm lens, f/1.8, extremely detailed, photorealistic, 8k resolution.

Разберём его по полочкам. Мы начали с крупности плана (close-up) и описания внешности (scandinavian woman, freckles, icy blue eyes). Добавили детализацию кожи (natural skin texture, pores visible) — это критически важно, иначе лицо будет кукольным. Указали свет (soft morning window light) и технические параметры. Результат такого запроса обычно поражает своей детализацией.

А вот вариант для мужского портрета в более брутальном стиле:

Промт:
Portrait of a rugged old fisherman with a white beard, wearing a yellow raincoat, stormy ocean background, rain drops on face, dramatic cinematic lighting, gloomy atmosphere, dark moody colors, highly detailed, sharp focus, 35mm lens, realistic photography.

Здесь акцент сделан на атмосферу (gloomy, dramatic) и текстуры (rain drops, beard). Использование «35mm lens» позволяет захватить немного фона, чтобы показать историю персонажа.

Пейзаж и архитектура

Генерация пейзажей — настоящий кладезь для вдохновения дизайнеров и концепт-артистов. Здесь можно дать волю фантазии, смешивая несочетаемое. Однако и тут нужны чёткие инструкции. Допустим, мы хотим получить футуристический город.

Промт:
Futuristic cyberpunk city street at night, neon lights reflecting in puddles, towering skyscrapers with holograms, flying cars, dense fog, wet asphalt, bustling crowd, cyberpunk aesthetic, blade runner style, volumetric lighting, photorealistic, 8k, wide angle shot.

Ключевыми моментами здесь выступают «neon lights reflecting» и «volumetric lighting», которые создают тот самый антураж киберпанка. Упоминание стиля «blade runner» служит отличным референсом для нейросети.

Если же душа тяготеет к природе и умиротворению, стоит попробовать следующий вариант:

Промт:
Breathtaking landscape of a mountain lake at sunset, snow-capped peaks reflecting in crystal clear water, pine forest in the foreground, golden hour lighting, vibrant colors, majestic nature, national geographic style, ultra wide angle, high resolution, detailed texture.

Фраза «national geographic style» — это своеобразный знак качества для ИИ, заставляющий его подтягивать цвета и композицию к стандартам известного журнала. «Golden hour» (золотой час) обеспечивает тёплое, приятное глазу освещение.

Стилизация: от живописи до 3D

Иногда фотореализм — это вовсе не то, что нужно. Хочется чего-то более художественного, сказочного или, наоборот, техничного. Нейросети — настоящие хамелеоны, способные имитировать любую технику. Для создания изображений в стиле классической живописи можно использовать имена известных художников. Однако стоит быть осторожным: смешение стилей может дать непредсказуемый результат.

Пример промта для создания иллюстрации в стиле фэнтези:

Промт:
Magical ancient forest with glowing mushrooms, fairies flying around, giant oak tree with a door, fantasy concept art, style of Greg Rutkowski and Artgerm, digital painting, vibrant colors, mystical atmosphere, sharp details, intricate design.

Упоминание конкретных художников (Greg Rutkowski — любимец нейросетей) задаёт вектор стилизации. Слова «concept art» и «digital painting» уводят генерацию от фотореализма в сторону рисунка.

А если нужно создать нечто, похожее на 3D-рендер игрушки или персонажа мультфильма?

Промт:
Cute tiny robot holding a flower, isometric view, 3d render, clay material, style of Pixar, soft pastel colors, studio lighting, plain background, octane render, unreal engine 5, high fidelity, 4k.

Здесь «clay material» (пластилин/глина) и «style of Pixar» делают картинку мультяшной и объёмной. А технические термины «octane render» и «unreal engine 5» добавляют изображению характерный лоск компьютерной графики высокого уровня.

Сложно ли исправить ошибки?

Даже самый выверенный промт не страхует от артефактов. Искаженные руки, лишние конечности, «плывущий» текст — всё это бич генеративных моделей. Но и с этим можно бороться. Во-первых, многие нейросети поддерживают так называемый Negative Prompt (негативный промт). Это список того, чего на изображении быть не должно. Обычно туда вписывают: «ugly, deformed, disfigured, extra fingers, bad anatomy, blurry, watermark, text». Это своего рода фильтр, отсекающий брак.

Во-вторых, не стоит пытаться впихнуть в один запрос всю «Войну и мир». Перегруженный промт путает алгоритм. Лучше разбить задачу на итерации или использовать функцию Inpainting (дорисовка части изображения), если она доступна в вашем инструменте. Исправить руки нейросети пока даётся с трудом, но ситуация меняется буквально каждый месяц. Впрочем, иногда проще перегенерировать картинку заново, чем пытаться спасти неудачный вариант.

Качество против количества

Бытует мнение, что чем длиннее промт, тем круче результат. На самом деле это заблуждение. Львиная доля слов в огромных «простынях» текста просто игнорируется моделью или создаёт ненужный шум. Лаконичность и точность — вот залог успеха. Лучше подобрать три правильных прилагательных, чем написать десять синонимов через запятую. Вместо «красивый, великолепный, чудесный, потрясающий дом» напишите «викторианский особняк с готическими элементами». Конкретика всегда побеждает абстракцию.

Кроме того, стоит экспериментировать с порядком слов. Если вы хотите, чтобы объект был красным, поставьте слово «red» как можно ближе к началу описания объекта. Если цвет «размазывается» на всё изображение, попробуйте переформулировать запрос. И, конечно же, не забывайте про соотношение сторон (aspect ratio). В Midjourney, например, это параметр «–ar 16:9» или «–ar 2:3». Вертикальный кадр для портрета и горизонтальный для пейзажа воспринимаются совершенно по-разному даже при одинаковом текстовом описании.

Где искать вдохновение?

Придумывать промты с нуля — задача не из лёгких, особенно когда муза покинула чат. Но спасательный круг есть. Существуют огромные базы данных и сообщества, где энтузиасты делятся своими находками. Ресурсы вроде Lexica или общедоступные галереи Midjourney — это настоящий клондайк идей. Можно подсмотреть, как другие пользователи добиваются нужного эффекта, какие слова используют, и адаптировать их под свои задачи. Не стоит стесняться копировать чужие приёмы (в учебных целях). Ведь именно через анализ чужих работ приходит понимание механики процесса.

А ещё полезно изучать терминологию из смежных областей: фотографии, живописи, кино, 3D-моделирования. Знание того, чем отличается ампир от барокко или ретровейв от синтвейва, значительно расширяет палитру ваших возможностей. Нейросеть — это эрудированный, но пассивный художник. Она знает все стили мира, но активировать эти знания можете только вы.

Стоит ли платить за подписки?

Вопрос, который волнует многих. Есть бесплатные модели, которые можно запустить на домашнем компьютере (если позволяет видеокарта), и есть платные облачные сервисы. Разница, безусловно, есть. Платные решения (Midjourney, DALL-E 3) обычно выдают более стабильный, эстетичный и детализированный результат с меньшими усилиями со стороны пользователя. Они лучше понимают естественный язык и требуют меньше «танцев с бубном».

Однако локальные установки Stable Diffusion предоставляют такой уровень контроля, который облачным сервисам и не снился. Здесь и возможность обучения собственных моделей (LoRA), и точечное управление позой (ControlNet), и отсутствие цензуры. Конечно, это требует времени на освоение и мощного железа, что может серьёзно ударить по кошельку при сборке ПК. Но свобода творчества того стоит. Для новичка же вполне подойдут и базовые тарифы популярных ботов, чтобы просто набить руку и понять принципы промпт-инжиниринга.

И всё же, главный секрет успеха кроется не в выборе инструмента и даже не в знании тысячи умных слов. Главное — это ваше видение. Нейросеть — лишь кисть в ваших руках, пусть и очень высокотехнологичная. Учитесь видеть свет, композицию и цвет в реальном мире, и тогда ваши цифровые творения заиграют новыми красками. Не бойтесь экспериментировать, смешивать стили и нарушать правила. В конце концов, самые интересные открытия часто происходят по ошибке. Пусть каждый ваш запрос становится маленьким приключением, а результат радует глаз и вдохновляет на новые свершения.