Создание изображения, которое не отличить от настоящей фотографии, давно перестало быть уделом избранных, превратившись в доступный каждому инструмент. Однако натыкаешься на парадокс: имея под рукой мощнейшие нейросети, пользователь довольно часто получает пластиковых кукол с остекленевшим взглядом вместо живых людей. Почему же алгоритм, обученный на миллиардах снимков, упорно выдает «цифровую фальшь»? Дело вовсе не в слабости технологий. Проблема кроется в формулировке запроса, который мы скармливаем машине. Ведь для искусственного интеллекта понятие «красиво» — это усреднённый, вылизанный глянец, лишённый жизни. Но чтобы получить действительно впечатляющий результат, нужно научиться говорить с нейросетью на языке профессионального фотографа, управляя светом, оптикой и текстурами.
Что превращает цифру в реальность?
Многие считают, что достаточно добавить в промт слова «photorealistic» или «4k», и шедевр готов. Это заблуждение. На самом деле реализм — это совокупность несовершенств. Гладкая кожа без единой поры, идеальная симметрия лица и равномерное освещение — вот верные признаки генерации, которые моментально считывает наш мозг. Живой кадр всегда имеет зернистость, расфокус, микроскопические дефекты и сложную игру теней. Поэтому задача промпт-инженера — принудительно испортить идеальную картинку, добавив в неё хаос реального мира. Стоит задуматься: а как бы этот кадр снимал человек? С какой точки? Каким объективом? Именно технические параметры камеры становятся тем фундаментом, на котором строится доверие зрителя.
Оптика и «железо»
Разговор о реализме невозможен без упоминания фототехники. Нейросети прекрасно разбираются в марках фотоаппаратов и типах плёнки. Если вы хотите получить портрет с приятным размытием фона (боке), стоит прямо указать фокусное расстояние. Идеальным выбором станет 85mm или 100mm — эти значения сохраняют правильные пропорции лица, не искажая черты. А вот для пейзажей или тесных интерьеров лучше подойдёт широкий угол — 24mm или 35mm. К слову, упоминание конкретной модели камеры тоже творит чудеса. Например, Fujifilm GFX 100 добавит изображению невероятную детализацию и специфическую цветопередачу, свойственную среднему формату. А если душа тяготеет к ретро-эстетике, попробуйте вписать в промт Polaroid или Kodak Portra 400. Зернистость плёнки, легкие засветы и тёплые тона моментально уберут ощущение «цифровой стерильности». Это работает безотказно.
Свет и тень
Свет — это кисть фотографа, и в генерациях он играет первую скрипку. Самый простой, но скучный вариант — написать «natural lighting» (естественное освещение). Безусловно, это сработает. Но результат будет довольно пресным. Куда интереснее использовать «cinematic lighting» (кинематографичное освещение) или «volumetric lighting» (объёмный свет), чтобы создать атмосферу и глубину. Драматизма добавит жёсткий свет — «hard light» или «rembrandt lighting» (рембрандтовский свет), который рисует характерный треугольник на щеке модели. Не стоит забывать и про время суток. «Golden hour» (золотой час) зальет кадр тёплым закатным солнцем, а «blue hour» (синий час) создаст таинственную предрассветную прохладу. Ну и, конечно же, сложные схемы света, такие как «rim light» (контровой свет), помогут отделить объект от фона, подсвечивая контур волос или фигуры.
Текстура кожи: борьба с пластиком
Самый сложный нюанс в генерации людей — это кожа. ИИ так и норовит «заблюрить» лицо, превратив человека в манекен. Чтобы этого избежать, придётся проявить настойчивость. В промт нужно вписывать не просто «detailed face», а конкретные маркеры текстуры. Отлично работают связки «skin texture» (текстура кожи), «visible pores» (видимые поры), «skin imperfections» (несовершенства кожи). Можно пойти дальше и добавить «freckles» (веснушки), «moles» (родинки) или даже лёгкую небритость. Особый интерес вызывает термин «subsurface scattering» (подповерхностное рассеивание). Это физическое свойство кожи частично пропускать свет, что делает её полупрозрачной и живой, особенно на ушах или пальцах при контровом свете. Без этого параметра лицо часто выглядит как раскрашенный гипс.
Стиль и композиция
Мало просто поставить объект в центр кадра. Важно задать ракурс. «Low angle shot» (съёмка с нижней точки) придаст объекту величия и монументальности, визуально удлинив ноги или возвысив здание. «High angle» (съёмка сверху), напротив, сделает персонажа более уязвимым или позволит показать раскладку предметов на столе. Крупность плана тоже имеет значение. «Close-up» покажет детали глаз, «medium shot» захватит человека по пояс, а «extreme wide shot» потеряет героя в огромном пространстве пейзажа. Довольно часто новички забывают про глубину резкости. А ведь параметр «depth of field» или конкретное значение диафрагмы (например, f/1.8) позволяет чётко указать машине, что должно быть в фокусе, а что — размыто. Это мощнейший инструмент управления вниманием зрителя.
Вредно ли использовать негативные промты?
Вовсе нет. Это спасательный круг, который отсекает всё лишнее. В поле Negative Prompt (если нейросеть это позволяет) или через параметр «–no» в Midjourney стоит внести всё то, что убивает реализм. Сюда отправляются «cartoon», «illustration», «3d render», «anime», «drawing». Обязательно добавьте «bad anatomy», «deformed hands», «extra fingers», «missing limbs» — нейросети всё ещё грешат проблемами с конечностями. Также полезно исключить «blur», «watermark» и «text», чтобы случайная подпись из обучающей выборки не испортила ваш шедевр. Грамотно составленный негативный список — это уже половина успеха, ведь он сужает коридор возможностей для ошибки алгоритма.
Примеры готовых решений
Перейдём от теории к практике. Рассмотрим несколько сценариев, которые можно брать за основу и адаптировать под свои задачи. В каждом случае мы будем использовать английский язык, так как он остается основным для большинства моделей.
Первый сценарий: Кинематографичный портрет.
Задача — создать выразительный мужской портрет с характером и деталями. Начать нужно с описания объекта, затем добавить окружение и технические параметры.
«Hyper-realistic portrait of an elderly fisherman with a weathered face and deep wrinkles, wearing a yellow raincoat, rainy weather, storm at sea in the background, shot on 35mm lens, Kodak Portra 400, cinematic lighting, high contrast, water droplets on face, intense gaze, detailed skin texture, 8k resolution, photorealistic».
Здесь мы задали не просто «старика», а конкретный образ с историей (рыбак, шторм). Указание плёнки Kodak Portra и 35-мм объектива обеспечит нужную атмосферу и зернистость.
Второй сценарий: Уютный интерьер.
Допустим, нам нужна фотография современной гостиной, которая не выглядит как 3D-рендер из каталога мебели.
«Interior shot of a cozy scandinavian living room, messy blanket on the sofa, sunlight streaming through sheer curtains, dust motes dancing in the light, authentic atmosphere, shot on Canon EOS R5, 24mm lens, depth of field, warm color palette, hyper-detailed textures of fabric and wood, lived-in feel».
Ключевые слова здесь — «messy blanket» (небрежный плед) и «dust motes» (пылинки). Именно этот легкий беспорядок («lived-in feel») превращает стерильную картинку в жилое помещение.
Третий сценарий: Уличная фотография (Street Style).
Попробуем поймать динамику ночного города и случайного прохожего.
«Candid street photography of a young woman laughing under neon signs in Tokyo, raining night, colorful reflections on wet asphalt, motion blur in the background, bokeh, shot on 50mm f/1.2, high ISO noise, moody atmosphere, realistic skin tone, candid shot, street fashion, volumetric lighting».
Слово «candid» (искренний, непостановочный) дает сигнал нейросети, что модель не должна позировать. А «high ISO noise» и «motion blur» (размытие в движении) добавляют тот самый технический брак, который делает фото настоящим.
Четвертый сценарий: Макросъемка еды.
Фуд-фотография требует особой сочности и детализации.
«Macro shot of a freshly baked croissant with flaky texture, steam rising, morning sunlight, soft shadows, crumbs on a rustic wooden table, shallow depth of field, focus on the crust, mouth-watering, food photography, shot on 100mm macro lens, studio lighting, hyper-detailed».
Акцент на «крошках» (crumbs) и «паре» (steam) создает эффект присутствия. Кажется, что выпечку только что достали из печи.
Особенности разных нейросетей
Стоит отметить, что универсального ключа ко всем дверям не существует. Midjourney, например, тяготеет к художественности. Даже если просить фото, она может добавить живописности. Чтобы её «приземлить», используйте параметр «–style raw» и снижайте стилизацию («–stylize 50» или ниже). Stable Diffusion, напротив, более послушна, но требует более точных технических терминов. Здесь огромную роль играют чекпоинты (модели). Для реализма лучше выбирать модели вроде Juggernaut XL или Realistic Vision. Они изначально обучены на фотографиях и понимают нюансы оптики лучше, чем базовые версии. DALL-E 3, в свою очередь, отлично понимает естественный язык, но часто уходит в «пластиковость». С ней нужно быть строже в формулировках, настаивая на «raw photo» (сырое фото) и запрещая цифровую обработку.
Где прячутся ошибки?
Наиболее частый промах новичка — это перегруженность промта. Попытка впихнуть в один запрос «киберпанк», «средневековье», «космос» и «фотореализм» приведет к каше. Лучше действовать последовательно. Сначала опишите главное: кто или что в кадре? Затем — где это происходит? И только потом навешивайте стилистику и настройки камеры. Ещё один нюанс — противоречивые команды. Нельзя одновременно требовать «studio lighting» (студийный свет) и «harsh sunlight» (жёсткое солнце). Это собьет алгоритм с толку. Также не стоит перебарщивать с эпитетами. Десять прилагательных подряд («beautiful», «amazing», «gorgeous», «stunning») не сделают картинку лучше, а лишь размоют фокус внимания нейросети. Конкретика всегда побеждает абстракцию.
Как выбрать стиль?
Реализм бывает разным. Можно имитировать глянцевую журнальную обложку («Vogue editorial style», «fashion photography», «studio strobe»), а можно — репортажный снимок из горячей точки («documentary photography», «gritty», «high contrast»). Интересный эффект дает имитация старых процессов. Попробуйте добавить «daguerreotype» (дагереотип) для получения жутковатых, но невероятно детальных чёрно-белых портретов в стиле XIX века. Или «polaroid vintage» для атмосферы вечеринки 90-х. Нейросеть не просто накладывает фильтр, она перестраивает композицию и позы людей в соответствии с той эпохой, которую вы задали. Это настоящий кладезь для творческих экспериментов. Тем более, что винтажная эстетика прощает многие ошибки генерации, списывая их на «дефекты плёнки».
Создание реалистичного изображения — это не магия, а технология, помноженная на насмотренность. Экспериментируйте с фокусными расстояниями, меняйте плёнки, играйте со светом и не бойтесь добавлять в кадр мусор, пыль и морщины. Ведь именно эти мелочи делают наш мир настоящим. Удачный промт — это всегда компромисс между вашей фантазией и логикой машины, но, нащупав этот баланс, вы сможете создавать миры, в реальность которых поверит даже самый искушенный скептик.