В сети представлено множество руководств по генерации изображений, однако почему, следуя им, пользователи раз за разом получают «пластиковые» картинки, от которых за версту веет искусственным интеллектом? Глянцевая кожа, пустой взгляд, идеальная симметрия и свет, которого не бывает в природе — всё это маркеры, мгновенно выдающие происхождение цифрового шедевра. Обыватель, впервые открывший Midjourney или Stable Diffusion, часто думает, что нейросеть сама догадается о необходимости добавить в кадр жизнь, но алгоритм тяготеет к усреднённой красоте, лишённой изъянов. Устав от суеты и попыток подобрать «то самое слово», многие бросают это занятие, так и не добившись желаемого фотореализма. Но чтобы вдохнуть душу в цифровой код, придётся освоить язык нюансов и научиться управлять виртуальной камерой не хуже профессионального фотографа.
С чего начинается реализм?
С понимания того, что идеального мира не существует. Задача не из лёгких. Ведь нейросети обучены на миллионах изображений, львиная доля которых — это отретушированные рекламные снимки или цифровой арт. Чтобы сбить этот алгоритмический лоск, нужно принудительно вводить в запрос хаос и несовершенства. Ошибочно полагать, что слова «realism» или «photorealistic» сотворят чудеса сами по себе. На самом деле, они лишь задают вектор. Настоящий же реализм кроется в деталях: случайном блике, порах на коже, неудачно упавшей тени или даже расфокусе. К слову, именно имитация ошибок оптики и условий съёмки заставляет наш мозг верить в подлинность изображения.
Фотографическая база
Техническая грамотность — это фундамент, без которого здание вашего промта рухнет. Не стоит пренебрегать терминами, которыми оперируют операторы и фотографы. Первым делом стоит указать фокусное расстояние. Для портретов, например, золотым стандартом считается 85mm (или 100mm), что позволяет избежать дисторсии лица и красиво размыть фон. Если же цель — показать масштаб сцены или тесный интерьер, на помощь придёт широкий угол (35mm, 24mm). Далее следует упомянуть диафрагму. Значение f/1.8 или f/2.8 обеспечит ту самую малую глубину резкости (depth of field) и боке, за которыми многие охотятся. А вот для пейзажей, где важна чёткость каждого плана, лучше прописать f/8 или f/11. Ну и, наконец, тип камеры. Упоминание конкретных моделей, будь то цифровая Sony A7R IV или плёночная Leica M6, подтягивает из базы знаний нейросети соответствующие цветовые профили и особенности цветопередачи.
Текстура кожи и детали
Гладкую, словно отполированную кожу нейросеть рисует по умолчанию. Это удобно. Но скучно. Чтобы “испачкать” эту чистоту, в промт необходимо внедрять слова-текстуризаторы. Крайне эффективно работают связки «detailed skin texture», «visible pores», «skin imperfections», «moles» (родинки) и даже «slight wrinkles» (лёгкие морщины). Не стоит бояться слова «ugly» или «messy» — они не сделают персонажа уродливым в прямом смысле, но добавят ему характерности. Интересный нюанс: если добавить в описание национальность или возраст (например, «35 years old woman»), алгоритм сам подтянет соответствующие биологические особенности, сделав лицо менее кукольным. А если ещё вспомнить про макияж (или его отсутствие), можно добиться поразительных результатов. Фраза «no makeup» или «washed out face» часто творит настоящие чудеса, убирая эффект накрашенной модели.
Свет и атмосфера
Светом управляет настроение кадра. И тут тоже есть свои хитрости. Плоское, равномерное освещение — враг реализма. Куда интереснее выглядит «side lighting» (боковой свет), создающий объём, или «dramatic lighting» с глубокими тенями. Для имитации случайного кадра отлично подходит «natural lighting», «window light» (свет от окна) или «golden hour» (золотой час). Впрочем, иногда нужен эффект репортажной съёмки. В этом случае спасёт «hard flash» (жёсткая вспышка) или «camera flash», что придаст снимку вид любительского фото, сделанного в спешке. Это же правило касается и погоды: «overcast» (пасмурно), «foggy» (туманно) или «rainy» (дождливо) добавляют атмосферности и сложности, заставляя свет вести себя непредсказуемо.
Плёночная эстетика
Цифра — это хорошо, но плёнка — это душа. Именно плёночное зерно (film grain) скрывает артефакты генерации и придаёт изображению тот самый «аналоговый» вид. Довольно просто добиться этого, указав название конкретной фотоплёнки. Кладезь цветовых решений — это Kodak Portra 400 (для тёплых, естественных тонов кожи), Fujifilm Superia (для зеленоватых, холодных оттенков) или чёрно-белая Ilford HP5. Кроме того, можно прямо прописать «analog photography», «polaroid» или «vintage photo». Такие маркеры заставляют нейросеть добавлять виньетирование, лёгкую размытость по краям и цветовые сдвиги, характерные для старых процессов проявки. Выглядит впечатляюще, особенно если совместить это с одеждой в стиле ретро.
Ошибки новичков
Главная беда начинающих — «словесный салат». Многие считают, что чем больше красивых слов, тем лучше результат, но на самом деле перегруженный промт сбивает нейросеть с толку. Нагромождение эпитетов вроде «insane details», «unreal engine 5», «8k», «best quality», «masterpiece» часто приводит к обратному эффекту — изображение становится пережаренным, слишком контрастным и неестественным. Эта наляпистость сразу бросается в глаза. Разумеется, эти слова (токенизаторы качества) имеют вес, но использовать их стоит дозированно. Лучше отказаться от абстракций в пользу конкретики. Вместо «beautiful woman» напишите, во что она одета, где стоит и куда смотрит. Ложка дёгтя в бочке мёда — это и противоречивые команды. Нельзя одновременно требовать «night» и «bright sun», алгоритм выдаст галлюцинацию.
Готовые промты: Портретная съёмка
Теория без практики мертва. Рассмотрим конкретный пример, который можно брать за основу и модифицировать. Допустим, нам нужен гиперреалистичный портрет пожилого мужчины.
Промт: «Extreme close-up portrait of an elderly fisherman, weathered face, deep wrinkles, detailed skin texture, visible pores, eyes looking at camera, beard with salt and pepper hair, wearing a yellow raincoat, stormy ocean background, overcast sky, dramatic lighting, shot on 35mm lens, f/1.8, realistic photography, cinematic look –ar 4:5 –style raw –v 6.0»
Разберём по полочкам. «Weathered face» и «deep wrinkles» задают текстуру. «Stormy ocean» и «yellow raincoat» создают контекст и контраст цветов. Параметр –style raw (для Midjourney) критически важен — он отключает встроенную “художественность” нейросети, делая картинку более фотореалистичной. А соотношение сторон –ar 4:5 идеально подходит для вертикальных портретов (Instagram-формат).
Готовые промты: Эффект случайного фото
Теперь попробуем создать что-то, что выглядит как «фотка на телефон».
Промт: «Candid shot from a smartphone, group of friends laughing at a messy dinner table, pizza boxes, plastic cups, half-eaten food, low light, camera flash, red eyes, motion blur, slightly out of focus, grainy image, amateur photography, night time, authentic vibe –ar 16:9 –style raw»
Здесь «изюминка» кроется в словах «messy dinner table» и «half-eaten food» — нейросети ненавидят беспорядок, но именно он делает кадр живым. «Red eyes» и «motion blur» (смаз от движения) добавляют технического брака, который присущ любительским снимкам. Это серьёзное вложение токенов в анти-эстетику, которое окупается сторицей.
Готовые промты: Интерьер и архитектура
Съёмка помещений тоже требует особого подхода. Стерильные комнаты из каталогов IKEA уже всем набили оскомину.
Промт: «Interior of a messy artist studio in a loft, morning sunlight coming through dusty windows, volumetric light, dust particles in the air, scattered paint tubes on the floor, canvas on easel, clutter, wooden floor texture, hyperrealistic, interior design photography, wide angle lens 24mm, f/8, high resolution –ar 3:2»
Ключевые слова здесь — «dusty windows» (пыльные окна) и «dust particles» (частички пыли). Именно воздух и свет делают помещение объёмным. А «clutter» (беспорядок) оживляет пространство, показывая, что здесь кто-то работает.
Нюансы работы с разными нейросетями
Хотя принципы построения запросов схожи, каждая нейросеть имеет свой «характер». Midjourney, например, больше тяготеет к художественности. Чтобы заставить её быть честной, приходится использовать параметры стилизации. Значение –stylize 50 или –stylize 0 (низкая стилизация) заставит бота строже следовать промту, игнорируя собственные фантазии. Stable Diffusion, напротив, требует более точного контроля через Negative Prompts (то, чего не должно быть в кадре). Туда стоит вписать: «cartoon, 3d, illustration, painting, drawing, doll, plastic skin, symmetry». Это своего рода спасательный круг, отсекающий всё лишнее. А если работаете с DALL-E 3 (через ChatGPT), то здесь лучше работает разговорный стиль. Ему можно просто сказать: «Сделай это фото похожим на неудачный кадр с мыльницы 2005 года», и он поймёт контекст лучше, чем набор сухих тегов.
Двойные прилагательные и сложные цвета
Ещё один способ повысить качество генерации — использовать сложные описания цветов и материалов. Не просто «red dress», а «crimson velvet dress» (малиновое бархатное платье). Не «blue wall», а «peeling turquoise paint» (облупившаяся бирюзовая краска). Использование двойных прилагательных, таких как «ржавый металлический» или «потёртый кожаный», даёт нейросети больше информации о фактуре объекта. Бьёт по бюджету токенов это не сильно, но результат становится в разы богаче. Тем более, что сложные оттенки всегда выглядят дороже и реалистичнее простых спектральных цветов.
Психология восприятия
Почему мы верим одним изображениям и не верим другим? Всё дело в несовершенстве композиции. ИИ стремится центрировать объект. Человек же часто «заваливает горизонт» или обрезает макушку. Попробуйте добавить в промт «off-center composition» (смещённая композиция) или «dutch angle» (голландский угол — наклон камеры). Это сразу сбивает пафос идеальной генерации. Также стоит экспериментировать с дистанцией. «Extreme close-up» (макро) покажет текстуру глаза, а «long shot» (дальний план) заставит нейросеть проработать окружение, вписав героя в среду. Однако тут есть подводные камни: на дальних планах лица часто искажаются. В этом случае выручит функция «Inpainting» (дорисовка) или «Vary (Region)», позволяющая перегенерировать только лицо, сохранив общую композицию.
Экспериментируйте смелее!
Создание промтов — это не точная наука, а скорее алхимия. Нет единого рецепта, который сработает всегда и везде. Иногда случайная опечатка в слове приводит к созданию визуального шедевра, а тщательно выверенный текст выдаёт посредственность. Главное — не бояться смешивать стили, добавлять странные детали и спорить с алгоритмом. Пробуйте, ошибайтесь, меняйте объективы и плёнки в своем виртуальном арсенале. В конечном счёте, самый реалистичный кадр тот, который вызывает эмоцию, а не просто демонстрирует количество пикселей. Укрощение нейросети — процесс захватывающий, и как только вы поймаете этот ритм, ваши работы перестанут быть просто картинками и станут настоящими фотографиями несуществующих миров.