У каждого, кто хоть раз пытался «договориться» с нейросетью о создании изображения, наверняка возникало чувство лёгкого разочарования: в голове картинка выглядит шедевром, а на экране монитора появляется нечто с тремя руками или пластиковой кожей. Знакомая ситуация? Безусловно. Ведь современные генеративные модели, будь то Midjourney или Stable Diffusion, — это не телепаты, а всего лишь очень исполнительные, но порой слишком буквальные инструменты, требующие чётких инструкций. Многие новички полагают, что достаточно написать «красивая девушка» или «закат на море», чтобы получить результат уровня National Geographic. Увы, это заблуждение. Машина не понимает абстрактную красоту, она понимает только конкретные токены, параметры и стилистические привязки. И чтобы не тратить часы на бессмысленные попытки, стоит разобраться в самой архитектуре запроса. А начать стоит с фундаментальных принципов построения промта.
С чего начинается магия?
С определения главного объекта. Это кажется очевидным, но львиная доля ошибок кроется именно здесь. Нейросети нужно чётко указать, кто или что находится в центре композиции. Будет ли это портрет пожилого мужчины, футуристический автомобиль или тарелка с пастой? Здесь важна детализация. Вместо скупого «собака» лучше написать «золотистый ретривер, бегущий по полю». Но одного объекта мало. Ему нужно задать действие и контекст. Статичные позы часто выглядят неестественно, поэтому добавление глагола оживляет кадр. Пусть ваш персонаж «читает книгу у окна» или «смотрит вдаль с надеждой». Это довольно простой приём, но он кардинально меняет восприятие итоговой картинки.
Анатомия идеального запроса
Строится промт, как правило, по принципу слоёного пирога. Сначала идёт база (субъект), затем наслаиваются детали окружения, освещение, стиль и технические параметры. Игнорировать техническую часть — значит отдать качество на откуп случайности. А случайность редко бывает удачной. Чтобы получить фотореализм, недостаточно слова «realistic». Придётся оперировать терминами из мира настоящей фотографии. Упоминание конкретной модели камеры или плёнки творит чудеса. Например, добавление в запрос «shot on Sony A7R IV» или «Fujifilm Velvia 50» мгновенно меняет цветовую гамму и микроконтраст изображения. Ведь эти токены подтягивают из базы данных нейросети миллионы референсов, снятых именно на эту технику.
Технические параметры: Оптика
Особый интерес вызывает работа с виртуальными объективами. Хотите красивое размытие фона (боке)? Тогда в промте обязательно должны фигурировать параметры диафрагмы. Фраза «f/1.8» или «f/2.8» даст мягкий, портретный фон, отделив модель от заднего плана. А вот для пейзажей, где важна резкость по всему полю кадра, лучше указать «f/11» или «f/16». Также стоит поиграть с фокусным расстоянием. Для портретов золотым стандартом считается «85mm lens», который не искажает пропорции лица. Если же нужна динамика или широкий охват сцены, на помощь придёт «35mm» или даже «16mm wide angle». Это надёжно. Потому что проверено поколениями фотографов, а нейросеть лишь имитирует этот опыт.
Как выбрать освещение?
Свет — это душа фотографии. Плоский, скучный свет способен убить даже самую интересную композицию. И наоборот, грамотно выставленное освещение вытянет посредственный сюжет. В генерациях отлично работают такие описания, как «cinematic lighting» (кинематографичный свет), придающий драматизм. Если вы хотите передать уют и тепло, используйте «golden hour» (золотой час) — время перед закатом, когда всё залито мягким оранжевым светом. Противоположность ему — «blue hour» (синий час), создающий мистическую, предрассветную атмосферу. Для студийных портретов стоит указать «rembrandt lighting» (свет Рембрандта) или «softbox lighting», чтобы получить мягкие тени и объём на лице. К слову, довольно часто новички забывают про такой мощный инструмент, как «volumetric lighting» (объёмный свет), который добавляет в воздух видимые лучи и дымку, делая кадр невероятно атмосферным.
Примеры готовых решений: Портрет
Рассмотрим конкретные сценарии. Допустим, ваша цель — создать пронзительный, детализированный портрет. Простой запрос тут не сработает. Вам нужно собрать конструктор из эмоций, текстур и света. Отличным вариантом станет такой промт:
«Close-up portrait of a young woman with freckles, messy red hair, piercing green eyes, looking directly at camera, soft natural lighting coming from a window, dust particles in the air, shot on 85mm lens, f/1.8, hyperrealistic, 8k, highly detailed skin texture».
Разберём, почему это работает. Здесь есть всё: дистанция (close-up), субъект с характерными чертами (веснушки, рыжие волосы), действие (смотрит в камеру), свет (от окна) и техническая база. Результат гарантированно будет выглядеть как дорогая фотография.
А если нужно что-то более брутальное? Например, мужской портрет. Тогда стоит сменить тональность:
«Cinematic shot of an old bearded fisherman looking at the stormy sea, rain drops on face, dark moody atmosphere, dramatic lighting, sharp focus, rugged skin texture, canon eos r5, 50mm, photorealistic».
Здесь уже играют роль «дождь», «мрачная атмосфера» и «текстура грубой кожи».
Примеры готовых решений: Пейзаж и архитектура
С пейзажами дело обстоит иначе. Тут важен масштаб и детализация заднего плана. Если вы мечтаете о киберпанковом городе, промт должен быть насыщен неоном и дождём. Пример добротного запроса:
«Futuristic Tokyo street at night, neon signs reflecting in puddles, cyberpunk style, towering skyscrapers, flying cars in the background, wet asphalt, cinematic blue and pink lighting, wide angle shot, highly detailed, unreal engine 5 render style».
Обратите внимание на упоминание движка Unreal Engine — это часто добавляет «сочности» и детализации компьютерной графики, которая выглядит почти как фото.
Для любителей природы подойдёт более спокойный, но величественный сценарий:
«Majestic mountain landscape during sunrise, fog covering the valley, snow-capped peaks, pine forest in the foreground, soft morning light, national geographic style, ultra wide angle, 8k resolution, crisp details».
Маркер «National Geographic style» здесь выступает своего рода знаком качества, направляя нейросеть в сторону документальной эстетики.
Примеры готовых решений: Фуд-фотография
Еда на фото должна вызывать аппетит. Это аксиома. Чтобы сгенерировать «вкусный» кадр, нужно использовать слова, описывающие свежесть и текстуру. Например:
«Professional food photography of a juicy burger with melting cheese, steam rising, fresh lettuce, sesame bun, dark wooden table background, dramatic side lighting, shallow depth of field, 4k, delicious, gourmet».
Слова «melting» (плавящийся) и «steam» (пар) оживляют картинку, заставляя зрителя чувствовать запах. А «dark wooden table» создаёт нужный контраст, чтобы бургер не потерялся на фоне.
Стилизация и художественные приёмы
Иногда фотореализм — не самоцель. Бывает, хочется получить картинку в стиле старой плёнки или винтажного полароида. В таком случае в промт нужно внедрять названия конкретных фотопроцессов. Фраза «1990s polaroid photo style, flash photography» мгновенно превратит идеальную цифровую картинку в ностальгический кадр с характерными засветами и слегка искаженными цветами. А если добавить «grainy film texture» или «black and white photography, noir style», можно получить стильный монохромный снимок с атмосферой детективных фильмов середины прошлого века. Изюминка таких запросов именно в несовершенстве, которое добавляет шарма.
Чего стоит избегать?
Главная ошибка — перегруженность конфликтующими понятиями. Не стоит пытаться впихнуть в один промт «солнечный день» и «ночное небо» (если это не сюрреализм). Нейросеть просто сойдет с ума и выдаст кашу. Также лучше отказаться от слишком абстрактных эпитетов вроде «невероятный», «фантастический» или «заставляющий задуматься». Машина не умеет чувствовать, она умеет считать. Поэтому эмоции лучше описывать через мимику («smiling», «crying», «angry»), а атмосферу — через свет и цвет. И ещё один нюанс: отрицательные промты. В некоторых интерфейсах (например, Stable Diffusion) есть отдельное поле для того, чего на картинке быть не должно (Negative Prompt). Туда обычно отправляют «bad anatomy», «extra fingers», «blurry». Но в основном поле запроса частицу «не» использовать не стоит. Фраза «не красная машина» скорее всего приведёт к появлению именно красной машины, так как нейросеть зацепится за слово «красная».
Маленькие хитрости для большого результата
Существуют слова-усилители, которые, словно специи, делают результат выразительнее. К ним относятся: «insane details», «award winning photography», «masterpiece», «trending on artstation». Казалось бы, банальность, но алгоритмы действительно реагируют на них повышением качества проработки текстур. Тем более, что добавить пару слов в конец промта — дело нехитрое, а эффект может быть внушительным.
Ещё один секрет — соотношение сторон. По умолчанию многие сети генерируют квадрат. Но для портрета лучше задать вертикальный формат (–ar 2:3 в Midjourney), а для кинокадра — широкий формат (–ar 16:9). Это сразу меняет композицию кадра, делая её более профессиональной. Ведь компоновка объектов в квадрате и прямоугольнике строится по совершенно разным законам.
Текстуры и материалы
Для достижения максимального реализма не забывайте указывать материалы. Если это одежда, напишите «silk» (шёлк), «denim» (джинса) или «leather» (кожа). Нейросеть прекрасно знает, как свет преломляется на разных поверхностях. Блеск шёлка и матовость хлопка будут переданы верно только в том случае, если вы об этом попросите. То же касается и кожи человека. Токены «pores» (поры), «wrinkles» (морщины), «imperfections» (несовершенства) уберегут вас от эффекта «пластиковой куклы», который так часто выдает искусственное происхождение изображения.
Финальный штрих: вес слов
В продвинутых генераторах можно регулировать значимость каждого слова. Где-то это делается через скобки (слово:1.2), где-то через двойное двоеточие (word::2). Это позволяет расставить акценты. Например, если в запросе «девушка в саду с красными розами» розы получаются слишком мелкими, можно увеличить вес слова «roses». Это тонкая настройка, требующая практики, но именно она позволяет добиться полного контроля над генерацией. Разумеется, на первых порах можно обойтись и без этого, но для сложнейших задач инструмент незаменимый.
Путь к идеальному промту — это всегда эксперимент. Не бойтесь менять слова местами, добавлять странные сочетания или убирать лишнее. Иногда самый неожиданный, короткий запрос выдает настоящий шедевр, а сложная конструкция из пятидесяти слов приводит к посредственному результату. Главное — понимать логику машины и говорить с ней на одном языке. И тогда каждый ваш запрос превратится в маленькое произведение цифрового искусства. Удачи в творческих поисках, и пусть ваши генерации всегда вызывают восторг!