Сотни тысяч сгенерированных изображений ежедневно наводняют социальные сети, но лишь единицы из них заставляют зрителя замереть в изумлении, не в силах отличить цифровую иллюзию от реального снимка. Кажется, что нейросети творят чудеса по мановению волшебной палочки, однако за каждым шедевром стоит кропотливая работа человека, сумевшего подобрать правильный ключ к алгоритму. Многие новички, разочаровавшись после первых попыток, бросают это дело, получая на выходе «пластиковые» лица и неестественное освещение. Ведь машина, какой бы умной она ни была, не умеет читать мысли, а лишь послушно (иногда слишком буквально) исполняет команды. Проблема зачастую кроется не в возможностях искусственного интеллекта, а в скудности нашего языка при общении с ним. Поэтому, чтобы получить действительно качественный результат, стоит научиться думать как фотограф и описывать кадр с точностью хирурга.
Анатомия идеального запроса
С чего начинается создание реалистичного изображения? С понимания структуры. Львиная доля успеха зависит от того, насколько грамотно вы выстроите иерархию слов. Не стоит пытаться впихнуть все идеи в одно предложение, надеясь на авось. Сначала машине нужно объяснить, кто является главным героем. Это может быть портрет пожилого мужчины, футуристический автомобиль или же одинокое дерево на скале. Сразу же стоит задать контекст действия. Что делает объект? Стоит, бежит, спит или просто смотрит в камеру? Без этого уточнения нейросеть начнёт «галлюцинировать», предлагая самые неожиданные, а порой и пугающие варианты.
Далее следует описание окружения. И здесь кроется важный нюанс. Недостаточно просто написать «лес» или «город». Нейросети нужен антураж. Опишите детали заднего плана, погоду, время суток. Именно окружение задаёт настроение всему кадру. К слову, порядок слов имеет значение: то, что стоит в начале промта, имеет для алгоритма наибольший вес. Поэтому главные объекты мы выносим вперёд, а стилистические уточнения оставляем на десерт. Завершает эту конструкцию блок технических параметров, который превращает простую картинку в имитацию фотографии. Но об этом стоит поговорить отдельно.
Как выбрать технику и плёнку?
Удивительно, но нейросети прекрасно разбираются в истории фотографии и технических характеристиках камер. Если вы хотите получить не просто рисунок, а кадр, неотличимый от реального, придётся оперировать терминами профессиональных фотографов. Сложно ли это? Вовсе нет, если запомнить несколько базовых сочетаний. Для начала стоит указать тип плёнки или камеры. Упоминание легендарной «Kodak Portra 400» мгновенно добавит изображению теплоты, зернистости и мягких оттенков кожи, свойственных плёночной фотографии. А вот запрос с «GoPro» сделает угол обзора широким, а картинку — резкой и динамичной (с лёгким искажением по краям).
Особый интерес вызывает работа с оптикой. Хотите размытый фон, то самое красивое боке, которое так ценят портретисты? Тогда в промт стоит добавить параметры объектива, например, «85mm lens» или диафрагму «f/1.8». Это даст машине команду сфокусироваться на лице и размыть всё лишнее. Для пейзажей же лучше использовать широкоугольные значения, скажем, «16mm» или «35mm», чтобы в кадр попало как можно больше пространства. Также отличным маркером реализма служат такие слова, как «high shutter speed» (для заморозки движения) или «long exposure» (для эффекта смазанных огней ночного города). Использование этих терминов творит чудеса, превращая плоское изображение в объёмный, живой кадр.
Свет и композиция: важные нюансы
Свет — это кисть фотографа, и в генерации изображений это правило работает безотказно. Без указания типа освещения вы рискуете получить скучную, плоскую картинку с непонятным источником света. Самым простым и выигрышным вариантом считается «Golden Hour» (золотой час) — время перед закатом, дающее мягкий, тёплый свет. Однако ограничиваться им не стоит. Для драматичных портретов отлично подходит «Rembrandt lighting» (свет Рембрандта), создающий выразительный треугольник света на щеке модели и глубокие тени.
Если же ваша цель — передать атмосферу киберпанка или ночного мегаполиса, то здесь солирует «Neon lighting» или «Cinematic lighting». Эти команды заставляют нейросеть прорабатывать блики, рефлексы и цветные тени. А вот «Natural lighting» подойдёт для спокойных, бытовых сцен. Кроме того, довольно часто новички забывают про ракурс. А ведь он кардинально меняет восприятие. «Low angle» (вид снизу) придаст объекту величия и монументальности, в то время как «High angle» (вид сверху) сделает его более уязвимым или позволит показать масштаб локации. Экспериментировать с этим безусловно стоит, ведь именно свет и ракурс задают эмоциональный тон всему произведению.
Примеры портретных промтов
Теория — это хорошо, но лучше всего принцип работы понятен на практике. Давайте рассмотрим конкретные сценарии. Допустим, нам нужен гиперреалистичный портрет девушки в городской среде. Мы не можем просто написать «девушка в городе». Результат будет посредственным. Нам нужно собрать воедино все знания о технике, свете и деталях. Добротный, рабочий промт будет выглядеть примерно так.
«Portrait of a young woman with freckles and green eyes, messy bun hairstyle, wearing an oversized beige trench coat, walking down a busy street in Tokyo, rainy evening atmosphere, neon signs reflections, wet asphalt, cinematic lighting, shot on 35mm lens, f/1.8, bokeh, hyper-realistic, 8k resolution, highly detailed skin texture».
Соединив всё это, мы получим живой, дышащий кадр, где видны поры на коже и отражения неоновых вывесок в лужах. Важно отметить, что порядок слов можно немного варьировать, но суть остаётся прежней: от общего к частному, от объекта к стилю.
А если мы хотим создать портрет старого рыбака? Здесь лексика изменится. Мы сделаем акцент на текстурах и суровости. Промт может звучать так: «Close-up portrait of an old bearded fisherman, weathered face with deep wrinkles, intense gaze». Окружение: «stormy sea in the background, dark clouds, dramatic sky». Техническая часть: «shot on Kodak Tri-X 400 (black and white film), heavy grain, high contrast, dramatic lighting, sharp focus on eyes». Чёрно-белая плёнка здесь упомянута не случайно — она придаёт снимку документальность и вневременной характер.
Пейзажная и архитектурная фотография
С пейзажами дело обстоит немного иначе. Здесь нет одного главного героя-человека, поэтому внимание нейросети нужно рассеять по всему кадру, уделяя особое внимание деталям ландшафта и погоде. Представим, что мы хотим получить изображение заброшенного замка в горах. Начинаем с масштабного описания: «Majestic abandoned gothic castle on top of a misty mountain cliff». Добавляем детали окружения, чтобы избежать пустоты: «overgrown with ivy and moss, crumbling towers, dark forest below, fog».
Чтобы картинка не выглядела как концепт-арт к компьютерной игре, а напоминала фото из National Geographic, используем соответствующие маркеры. «Aerial view» или «Drone shot» дадут нам вид с высоты птичьего полёта. Технические параметры также меняются: «wide angle lens, 16mm, deep depth of field (чтобы всё было в фокусе), hyper-detailed, morning light, volumetric fog, 8k». Словосочетание «volumetric fog» (объёмный туман) здесь играет ключевую роль, добавляя сцене глубины и трёхмерности.
Для интерьерной съемки или архитектуры города подход схожий, но с акцентом на геометрию и материалы. Например, описание современной гостиной: «Modern minimalist living room interior, scandinavian style». Детали: «large floor-to-ceiling windows, sunlight streaming through curtains, wooden floor, beige sofa, cozy atmosphere». Техника: «architectural photography, straight lines, bright and airy, interior design magazine style, shot on Canon 5D Mark IV». Упоминание конкретной модели камеры — это своего рода «чит-код», который подсказывает нейросети определённый стандарт качества и цветопередачи.
Стилистические модификаторы и «негатив»
Кроме описания того, что мы хотим видеть, существует ещё и пласт слов, отвечающих за общую эстетику. Иногда хочется уйти от фотореализма в сторону определённой эпохи. Запрос «1980s polaroid photo» мгновенно состарит снимок, добавит характерную рамку и искажённые цвета. А фраза «CCTV footage» (запись с камеры наблюдения) сделает картинку зернистой, чёрно-белой и намеренно некачественной, что отлично подходит для создания крипи-историй или детективных сюжетов. Тем более, что нейросети отлично имитируют артефакты VHS-кассет или старых дагерротипов.
Однако не менее важно знать, как отсечь лишнее. В большинстве современных интерфейсов для генерации есть поле «Negative Prompt». Сюда мы вписываем всё то, что портит кадр. Обычно это стандартный набор дефектов, от которых страдают алгоритмы. Стоит внести туда такие слова, как:
«blur, distortion, ugly, low quality, watermark, text, bad anatomy, extra fingers, cartoon, illustration»
Это своего рода страховка. Конечно, она не даёт стопроцентной гарантии, но существенно снижает процент брака. Указав в негативном промте «painting» или «drawing», вы ещё раз напомните машине, что ваша цель — именно фотография, а не живопись.
Распространённые ошибки новичков
Почему же, имея на руках готовые формулы, люди всё равно часто получают плохой результат? Главная проблема — противоречивость запроса. Нельзя требовать от нейросети одновременно «sunny day» (солнечный день) и «night atmosphere» (ночную атмосферу). Алгоритм попытается смешать эти понятия, и выйдет серо-бурая каша. Также не стоит перегружать промт абстрактными понятиями вроде «истинная любовь» или «смысл жизни». Машина оперирует визуальными образами, а не философскими категориями. Лучше описать визуальное проявление любви: объятия, взгляды, тёплый свет.
Ещё один подводный камень — излишняя детализация второстепенных объектов. Если вы потратите три строки на описание пуговиц на пальто человека, стоящего в толпе на заднем плане, нейросеть может решить, что эти пуговицы — и есть главный объект, и выдвинет их на передний план, исказив композицию. Все-таки важно соблюдать баланс и акцентировать внимание на главном. Ну и, конечно же, не стоит забывать про язык ввода. Большинство топовых моделей (Midjourney, Stable Diffusion) обучались на английском языке. Промты на русском они могут понять, но точность интерпретации будет заметно ниже, а нюансы и вовсе потеряются при переводе.
Финальные штрихи в генерации
Создание промта — это всегда процесс перебора и уточнения. Редко когда идеальный кадр получается с первой попытки. Обычно приходится менять семена генерации (seed), слегка корректировать веса слов или менять стилистические модификаторы. Это вполне нормальный рабочий процесс. Иногда одно-единственное слово, например, замена «beautiful» на «gorgeous» или «stunning», может кардинально изменить результат. К тому же, нейросети постоянно обновляются, и те трюки, что работали полгода назад, сегодня могут быть уже неактуальны.
Не бойтесь заимствовать идеи. Изучение чужих работ и промтов — лучший способ обучения. Видя удачный кадр, проанализируйте, за счёт чего он получился таким. Был ли это удачный свет? Или необычный ракурс? А может, всё дело в имитации конкретной киноплёнки? Копируйте удачные связки, миксуйте их, добавляйте свои детали. В конечном итоге, промт-инжиниринг — это творчество, где вы выступаете в роли режиссёра, а нейросеть — в роли невероятно талантливого, но немного наивного оператора. И только от чёткости ваших команд зависит, станет ли результат проходной картинкой или настоящим цифровым искусством. Удачных вам генераций и пусть каждый ваш запрос превращается в визуальный шедевр.