Создать шедевр одним нажатием кнопки — мечта, которая с появлением нейросетей стала казалось бы осязаемой реальностью. В сети представлено множество галерей с невероятно реалистичными портретами, от которых захватывает дух, и пейзажами, которые невозможно отличить от снимков National Geographic. Обыватель, впервые открывающий Discord с Midjourney или запускающий Stable Diffusion, часто ожидает мгновенного чуда. Однако вместо глянцевой обложки на экране зачастую появляется нечто с шестью пальцами, кривым горизонтом или стеклянным взглядом, устремлённым в пустоту. Разочарование наступает довольно быстро. Ведь искусственный интеллект — это не телепат, а исполнительный, но слишком буквальный художник, которому нужно предельно точно объяснить задачу. И тут на сцену выходит навык, ставший в последнее время едва ли не важнее умения рисовать руками. Речь идет о промпт-инжиниринге. Но чтобы не ошибиться и не тратить часы на генерацию цифрового мусора, стоит детально разобраться в архитектуре запросов и взять на вооружение уже проверенные формулы.
Анатомия запроса
С чего начинается построение идеальной команды? С понимания того, как машина «видит» текст. Она не понимает абстракций вроде «сделай красиво», зато отлично реагирует на конкретные технические параметры и описательные прилагательные. Структура рабочего промта почти всегда линейна, но требует соблюдения иерархии. На первом месте всегда стоит сам объект съёмки — кто или что находится в кадре. Сразу за ним следует описание среды или фона. Третий слой — это технические параметры камеры, освещения и стиля. А завершает эту конструкцию блок с «магическими» словами, повышающими качество. Сложно ли это запомнить? Вовсе нет, если представить, что вы диктуете техническое задание реальному фотографу, который очень плохо понимает намёки.
Первый и самый важный блок — это субъект. Здесь недостаточно написать просто «девушка». Нейросеть выдаст вам усреднённый, скучный образ. Добавьте деталей. Опишите возраст, этническую принадлежность, цвет волос, одежду и эмоцию. К слову, именно эмоции делают взгляд живым. Попробуйте добавить в описание такие характеристики, как smirking (ухмыляющийся) или gazing into distance (смотрящий вдаль), и результат изменится кардинально. И всё же, одного субъекта мало. Ему нужно окружение. Без указания фона вы получите либо студийную пустоту, либо хаотичный набор текстур.
Портретная съёмка
Самый востребованный жанр в AI-генерации — это, безусловно, реалистичный портрет. Здесь дьявол кроется в деталях кожи и глаз. Если вы хотите получить изображение, которое заставит зрителя сомневаться в его искусственном происхождении, используйте связку ключевых слов, отвечающих за текстуру. Довольно часто новички забывают указывать параметры детализации, получая «пластиковые» лица. Чтобы этого избежать, в промт стоит внедрять такие уточнения, как highly detailed skin texture, pores, imperfections или hyperrealistic. Это же правило касается и глаз — зеркала души. Уточнение detailed eyes или reflection in eyes творит чудеса.
Рассмотрим готовый пример для создания кинематографичного мужского портрета. Начните строку с главного: «Hyperrealistic portrait of a rugged elderly fisherman with a white beard». Далее добавляем атмосферу и детали одежды: «wearing a yellow raincoat, stormy ocean background, heavy rain, water drops on face». Теперь самое важное — техническая часть, придающая картинку «дорогой» вид:
Hyperrealistic portrait of a rugged elderly fisherman with a white beard, wearing a yellow raincoat, stormy ocean background, heavy rain, water drops on face, shot on Sony A7R IV, 85mm lens, f/1.8, cinematic lighting, dramatic atmosphere, 8k, ultra detailed.
Такой запрос гарантированно выдаст вам характерного персонажа с историей, написанной на лице, а не просто случайную генерацию.
Для женского портрета в студийном стиле подход будет иным. Здесь мы делаем ставку на мягкий свет и гламурную эстетику. Промт может звучать так:
Fashion photography of a young Scandinavian woman with platinum blonde hair, soft pastel makeup, wearing high couture white silk dress, studio lighting, softbox, neutral beige background, sharp focus, professional color grading, magazine quality, Vogue style, 8k resolution.
Результат порадует чистотой кадра и коммерческим потенциалом.
Освещение и атмосфера
Свет в фотографии — это кисть, которой рисуется объём. В генерации изображений это правило работает безотказно. Просто изменив описание света, можно превратить скучную сцену в кадр из голливудского блокбастера. Обыватель часто игнорирует этот пункт, довольствуясь дефолтным освещением, которое нейросеть подставляет сама. Но на самом деле управление светом — это львиная доля успеха. Существует несколько беспроигрышных вариантов. Golden hour (золотой час) даст вам тёплый, мягкий, закатный свет, идеальный для романтических сцен. Cinematic lighting (кинематографичное освещение) добавит контраста и драматизма. А Volumetric lighting (объёмный свет) создаст красивые лучи, пробивающиеся сквозь туман или пыль.
Попробуем создать что-то мистическое и атмосферное. Возьмем за основу лесную тематику. Промт может выглядеть следующим образом:
Full body shot of a forest spirit girl, glowing mushrooms around, night forest, fireflies, bioluminescent lighting, moonlight, volumetric fog, mystic atmosphere, photorealistic, Unreal Engine 5 render style, 8k, mysterious.
Такой набор слов заставляет алгоритмы прорисовывать сложные световые схемы, где источники света находятся внутри самого кадра, создавая невероятный объём и глубину.
Для любителей киберпанка и неона схема будет другой. Здесь правят бал жёсткие контрасты и яркие цвета. Пример готового запроса:
Cyberpunk street samurai smoking a cigarette, rain-slicked streets of futuristic Tokyo, neon lights, cyan and magenta lighting, reflections in puddles, blade runner vibes, highly detailed, photorealistic, cinematic composition.
Наляпистость здесь только приветствуется, ведь жанр подразумевает визуальную перегрузку.
Как выбрать камеру?
Может показаться странным, но упоминание конкретных моделей камер и объективов в текстовом запросе действительно влияет на результат. Нейросеть обучена на миллионах фотографий, в метаданных которых были указаны эти параметры. Поэтому, когда вы пишете GoPro, ИИ искажает перспективу, делая «рыбий глаз». А если указываете Canon 5D Mark IV, картинка становится резкой, сбалансированной и профессиональной. Особый интерес вызывает работа с фокусным расстоянием. Это мощнейший инструмент управления композицией.
Если ваша цель — показать широкий пейзаж или интерьер, смело вписывайте wide angle или 16mm lens. Для портретов, как мы уже упоминали, идеально подходит 85mm или 100mm, что обеспечит красивые пропорции лица без искажений. А для макросъёмки насекомых или ювелирных изделий незаменим тег macro lens или 100mm macro.
Приведём пример промта для макросъёмки глаза, который так любят демонстрировать в техно-демках. Начинаем с объекта:
Extreme close-up of a human blue eye, detailed iris texture, reflection of a city in the pupil, bright daylight, macro photography, shot on 100mm macro lens, f/2.8, incredibly detailed, sharp focus, 8k.
Результат обычно получается пугающе реалистичным, где видна каждая прожилка. Это наглядно демонстрирует, как сухие цифры фокусного расстояния меняют восприятие изображения.
Стилизация и плёнка
Иногда цифровая стерильность надоедает. Хочется чего-то теплого, лампового, с зерном и несовершенствами. Винтажная фотография сейчас переживает ренессанс, и нейросети отлично умеют имитировать старые плёнки. Достаточно добавить название легендарной фотоплёнки, и цветокоррекция изменится автоматически. Kodak Portra 400 даст приятные скинтоны и мягкие цвета, Fujifilm Velvia сделает картинку насыщенной и контрастной, а чёрно-белая Ilford HP5 добавит классического зерна и глубоких теней.
Попробуем сымитировать случайный кадр из 90-х. Запрос будет строиться на нарочитой небрежности:
Candid shot of teenagers hanging out at a skatepark in 1990s, grunge style clothing, flannel shirts, sunny day, harsh sunlight, authentic vibe, shot on Polaroid, film grain, vintage aesthetics, slightly blurred, light leaks.
Теги light leaks (засветы) и film grain (плёночное зерно) здесь играют ключевую роль. Они скрывают артефакты генерации и придают изображению тот самый “аналоговый” шарм, за которым гоняются фотографы.
Другой полюс стилизации — это имитация живописных техник в рамках фотореализма. Например, стиль Dark Fantasy. Здесь нам понадобятся более мрачные эпитеты:
Portrait of a necromancer reading an ancient book, skulls on the table, candle light, dark mood, chiaroscuro, Rembrandt lighting, oil painting texture style but photorealistic, highly detailed.
Упоминание Рембрандта здесь не случайно — ИИ знает его схемы освещения и применит их к вашему некроманту, создавая глубокие тени и выразительные акценты на лице.
Технические нюансы
Помимо слов, описывающих изображение, существуют параметры, управляющие самой генерацией. В Midjourney, например, это соотношение сторон. По умолчанию оно квадратное (1:1), но для кинематографичных кадров это не подходит. Параметр –ar 16:9 сделает кадр широкоформатным, идеальным для пейзажей и сцен из фильмов. Для портретов в полный рост или для сторис лучше использовать –ar 9:16. Это кажется мелочью, но композиция кадра при смене соотношения сторон перестраивается полностью.
Ещё один важный инструмент — негативный промт (Negative Prompt). Это способ сказать нейросети, чего вы НЕ хотите видеть. В некоторых интерфейсах для этого есть отдельное поле, в других используется параметр –no. Что туда обычно пишут? Все то, что портит кадр: ugly, deformed, extra fingers, missing limbs, blur, watermark, text, low quality. Использование негативного промта — это своего рода страховка от брака. Конечно, стопроцентной гарантии она не дает, но количество неудачных дублей сокращает заметно.
Представим, что мы генерируем сложную архитектуру. Запрос: «Modern minimalist villa made of concrete and glass, located on a cliff edge, ocean view, sunset». Без уточнений ИИ может нарисовать кривые окна или странные пропорции. Добавляем техчасть: «architectural photography, symmetrical, straight lines, ArchDaily style, 8k». А в параметры (или через –no) добавляем:
Negative prompt: asymmetry, curved lines, deformed house.
Так мы отсекаем ненужные вариации и направляем “мысль” машины в нужное, строгое русло.
Продуктовая съёмка и еда
Отдельная ниша, где промт-инжиниринг может реально сэкономить бюджет — это рекламная фотография товаров и еды. Нанять фуд-стилиста, арендовать студию и выставить свет — удовольствие дорогое. Сгенерировать «вкусный» кадр — дело пяти минут. Главное здесь — аппетитность и чистота. Слова-маркеры: delicious, fresh, juicy, steam (пар).
Рассмотрим пример для рекламы бургера. Просто «burger» даст вам картинку из меню забегаловки. Нам нужно искусство. Промт:
Close-up of a gourmet juicy cheeseburger with melting cheddar cheese, fresh lettuce, tomatoes, sesame bun, placed on a rustic wooden board, dark background, flying flour particles, professional food photography, studio lighting, sharp focus, advertising style, 8k, appetizing.
Частицы муки или капли воды на листьях салата добавляют динамики и реализма.
Если речь идет о рекламе парфюма, подход меняется на более утончённый:
Elegant glass perfume bottle with golden liquid, surrounded by white flowers and water splash, clean, luxury, bright lighting, pastel colors, product photography, commercial shot, 8k, bokeh background.
Здесь важно подчеркнуть статусность продукта через слова luxury, elegant и gold. ИИ прекрасно считывает эти коды и подбирает соответствующие текстуры и освещение.
Нюансы, о которых молчат
В погоне за идеальным промтом многие забывают о весе слов. В начале предложения слова имеют больший вес для алгоритма, чем в конце. Поэтому самое важное всегда выносите вперёд. Если вы напишете «Лес, в котором стоит девушка», нейросеть уделит больше внимания деревьям. Если же напишете «Девушка, стоящая в лесу», акцент сместится на персонажа. Это правило иерархии работает безотказно. К тому же, не стоит перегружать запрос лишними предлогами и союзами. Машина читает токены, а не литературу. «Girl, red dress, forest» для нее понятнее, чем «A beautiful girl who is wearing a red dress and standing in a forest».
Бывает и так, что результат всё равно не устраивает, хотя промт кажется идеальным. В таком случае помогает параметр chaos (в Midjourney) или изменение seed (зерна генерации). Иногда небольшое повышение уровня хаоса выдает совершенно неожиданные, креативные варианты композиции, до которых вы бы сами не додумались. Это тот случай, когда ошибку системы можно превратить в художественный прием.
Эксперименты и практика
Ни один, даже самый подробный гайд, не заменит личного опыта. Промт-инжиниринг — это процесс постоянного перебора, подстройки и анализа. То, что работало вчера на одной версии модели, сегодня может выдать совершенно другой результат. Тем более, что сами нейросети обновляются с пугающей скоростью. Однако базовые принципы построения композиции, работы со светом и описания текстур остаются неизменными.
Не бойтесь смешивать несмешиваемое. Попробуйте скрестить Cyberpunk и Rococo, добавьте к Batman стиль Wes Anderson. Именно на стыке противоречивых понятий рождаются самые вирусные и интересные изображения. Безусловно, иметь под рукой библиотеку готовых промтов полезно — это отличный старт и опора. Но настоящий стиль вырабатывается только тогда, когда вы начинаете чувствовать, как именно слово трансформируется в пиксель. Путь от простого «cat» до «majestic maine coon cat sitting on a throne, dramatic lighting, fantasy art, hyperrealistic» — это путь эволюции вашего собственного визуального мышления. Пусть каждый ваш запрос становится точнее, а результат — поражает воображение. Удачных генераций!