Случалось ли вам часами биться над генерацией изображения, получая на выходе существ с шестью пальцами или пейзажи, от которых веет безнадёжностью, хотя в голове картинка выглядела идеально? Кажется, что искусственный интеллект просто издевается, игнорируя очевидные требования, но на самом деле проблема кроется в языковом барьере между человеком и машиной. Нейросети не понимают намёков, они работают по чётким инструкциям, где каждое слово имеет свой вес, а порядок слагаемых подчас кардинально меняет сумму. Многие новички, разочаровавшись в первых результатах, бросают это занятие, считая его пустой тратой времени. Однако овладение искусством промпт-инжиниринга — это тот самый навык, который превращает хаотичные пиксели в шедевры цифрового искусства. А начать этот путь стоит с разбора анатомии идеального запроса и изучения проверенных на практике примеров.
Что такое промт?
Технически, промт — это текстовое описание, которое интерпретируется моделью для создания визуального образа. Но воспринимать его просто как набор слов было бы ошибкой. Это скорее код, где прилагательные задают настроение, существительные строят каркас, а глаголы вдыхают жизнь в статичную сцену. Сложно ли написать такой код? И да, и нет. С одной стороны, порог входа довольно низкий (достаточно написать «кот на диване»), с другой — для получения профессионального результата придется погрузиться в детали. Ведь именно нюансы, вроде указания типа освещения или модели камеры, отделяют любительскую картинку от фотореалистичного изображения. К слову, нейросети, подобные Midjourney или Stable Diffusion, обучались на миллиардах пар «картинка-текст», поэтому они отлично понимают терминологию фотографов.
Анатомия запроса
Из чего же складывается тот самый «волшебный» текст? В основе любой успешной генерации лежит чёткая структура, которой стоит придерживаться. Сначала мы всегда обозначаем главный объект (Subject). Это может быть человек, животное или абстрактная форма. Далее следует описание действия или состояния, в котором этот объект находится. К примеру, не просто «девушка», а «девушка, бегущая под дождем». Затем к описанию добавляется окружение (Environment), которое задает контекст происходящему. Важнейшим элементом, о котором часто забывают, является освещение и атмосфера (Lighting & Mood). Именно свет творит чудеса, превращая плоское изображение в объёмное. Ну и, наконец, технические параметры и стилизация: здесь мы указываем стиль (киберпанк, реализм, масло), тип камеры, фокусное расстояние и даже плёнку.
Портретная съёмка: реализм и детали
Создание реалистичного портрета — задача не из лёгких. Здесь важно не только описать внешность, но и задать правильный тон коже, взгляду и освещению. Довольно часто новички получают «пластиковые» лица именно из-за отсутствия текстурных уточнений.
Вот пример добротного промта для создания гиперреалистичного женского портрета:
«Portrait of a young woman with freckles, natural skin texture, piercing blue eyes, soft smile, wind blowing through messy hair, golden hour lighting, bokeh background, shot on Sony A7R IV, 85mm lens, f/1.8, hyper-realistic, 8k resolution –ar 2:3»
Разберем, почему это работает. Упоминание «natural skin texture» и «freckles» (веснушки) дает сигнал сети не сглаживать кожу до состояния фарфоровой куклы. Указание конкретной камеры и объектива (85mm — классический портретник) задает правильные пропорции лица и размытие фона.
А вот вариант для более драматичного, мужского образа:
«Close-up portrait of an elderly fisherman with deep wrinkles, rough weathered skin, heavy rain, dark moody atmosphere, dramatic rim lighting, intense gaze, cinematic detail, shot on Kodak Portra 400, high contrast, sharp focus –ar 3:4»
Здесь «rim lighting» (контровой свет) создает тот самый объём и отделяет модель от фона, а плёнка Kodak Portra 400 добавляет изображению характерную зернистость и цветопередачу. Это выглядит впечатляюще.
Как выбрать освещение?
Светом можно как спасти неудачную композицию, так и безнадёжно испортить идеальную. В промпт-инжиниринге существует целый словарь световых схем. Самый простой и беспроигрышный вариант — «softbox lighting» или «window light», дающий мягкие тени. Если же хочется добавить загадочности или агрессии, стоит использовать «hard lighting» или «neon lighting».
Для любителей студийной эстетики подойдет такой шаблон:
«Full body shot of a fashion model wearing futuristic streetwear, studio lighting, volumetric fog, vivid colors, pink and blue neon lights, clean background, 4k, unreal engine 5 render style –ar 9:16»
Тут «volumetric fog» (объёмный туман) добавляет глубину, а сочетание розового и голубого неона создает популярный нынче стиль vaporwave. Свет здесь солирует, задавая настроение всему кадру.
Пейзажи и архитектура
Когда речь заходит о масштабных сценах, на первый план выходят композиция и детализация. Нейросети склонны «мылить» задний план, поэтому стоит использовать слова-маркеры вроде «intricate details» (запутанные детали) или «sharp focus».
Пример промта для величественного природного пейзажа:
«Majestic snow-capped mountain range, reflection in a crystal clear alpine lake, sunrise, misty morning, pine forest in the foreground, wide angle shot, photorealistic, National Geographic style, highly detailed, 8k –ar 16:9»
Ссылка на «National Geographic style» сразу подтягивает определенную цветовую гамму и композиционные приемы, характерные для документальной фотографии. Это же правило касается и городской архитектуры.
Попробуем создать современный архитектурный шедевр:
«Modern parametric architecture, futuristic skyscraper made of glass and biomorphic concrete shapes, vertical gardens, busy futuristic street below, cyberpunk city background, rainy night, reflections on wet asphalt, cinematic lighting, wide shot –ar 16:9»
Слова «biomorphic» и «parametric» направляют генерацию в сторону сложных, органических форм, характерных для работ Захи Хадид.
Предметная съёмка для бизнеса
Для многих предпринимателей генерация фото товаров — настоящий спасательный круг. Это позволяет сэкономить львиную долю бюджета на фотостудиях. Главное здесь — чистота фона и правильная подача материала.
Допустим, нам нужно презентовать флакон духов:
«Elegant glass perfume bottle on a black marble podium, surrounded by white orchid flowers, water splashes, studio lighting, luxury product photography, gold accents, sharp focus, macro shot, advertising style –ar 4:5»
Обратите внимание на «podium» и «water splashes». Эти элементы создают антураж дороговизны и свежести. А «macro shot» заставляет камеру сфокусироваться на деталях флакона.
Или, к примеру, аппетитный фуд-кадр:
«Delicious gourmet burger with melting cheese and bacon, steam rising, wooden rustic table, dark moody background, professional food photography, shallow depth of field, appetizing, 8k, shot on 50mm lens –ar 1:1»
«Steam rising» (поднимающийся пар) — это та самая изюминка, которая делает еду «живой» и горячей на вид.
Стилизация и художественные приёмы
Иногда реализм утомляет, и хочется чего-то более творческого. Можно попросить нейросеть подражать великим художникам или определенным эпохам. Это открывает безграничный простор для фантазии.
Попробуйте такой запрос для иллюстрации в стиле фэнтези:
«Epic battle scene, medieval knight fighting a dragon, oil painting style, heavy brushstrokes, dramatic composition, inspired by Frank Frazetta, vibrant colors, dynamic pose, chaotic atmosphere –ar 3:2»
Упоминание Фрэнка Фразетты сразу задает мощную, мускулинную стилистику и определенную палитру.
А если нужно что-то нежное и воздушное:
«Cute whimsical little cottage in a forest, watercolor painting, pastel colors, soft edges, dreamy atmosphere, storybook illustration, intricate details, warm lighting –ar 1:1»
Здесь «soft edges» (мягкие края) и «watercolor» (акварель) полностью меняют визуальный язык, уходя от фотореализма.
Отрицательные промты: как убрать лишнее?
Часто бывает так, что в кадр лезет то, чего там быть не должно. Лишние люди, размытие, текст или искривлённые конечности. Для этого существуют негативные промты (параметр –no в Midjourney). Это своего рода фильтр, отсекающий мусор.
В большинстве случаев стоит добавлять такой «хвост» к вашему запросу:
«–no text, watermark, signature, blurry, low quality, distorted, extra limbs, bad anatomy, mutation, ugly»
Это довольно простое действие, но оно существенно повышает качество итогового изображения. Ведь нейросеть, не имея запрета, может по своему усмотрению влепить водяной знак, думая, что это часть стиля стоковой фотографии.
Подводные камни и частые ошибки
Кажется, что чем длиннее промт, тем лучше результат. Это распространенное заблуждение. На самом деле, перегруженный запрос часто сбивает алгоритм с толку. Не стоит писать целые сочинения с деепричастными оборотами. Машина лучше понимает рубленые фразы через запятую. Кроме того, избегайте противоречивых понятий. Если вы напишете «солнечный день» и «ночное небо», результат будет непредсказуемым (скорее всего, сумеречным и странным).
Ещё один нюанс — порядок слов. То, что стоит в начале промта, имеет для нейросети наивысший приоритет. Если вам важен цвет платья, пишите об этом в первых строках, а не в самом конце, где описание камеры. Ну и, конечно же, не забывайте про английский язык. Хотя многие модели уже понимают русский, английский остается нативным языком для большинства топовых нейросетей, и точность понимания там выше.
Важность экспериментов
Промпт-инжиниринг — это не точная наука, где дважды два всегда четыре. Это процесс постоянного перебора, настройки и шлифовки. Одна и та же фраза с разными зёрнами генерации (seed) может выдать совершенно разные картинки. Не бойтесь менять параметры, переставлять слова местами и добавлять неожиданные эпитеты. Создайте свой собственный файл-библиотеку с удачными связками слов, которые дают предсказуемо хороший результат. Удачные находки, будь то описание света или текстуры кожи, станут вашим золотым запасом. Погружайтесь в этот процесс с азартом исследователя, и тогда искусственный интеллект станет послушным инструментом в ваших руках, способным воплотить самые смелые визуальные фантазии.