Видели ли вы когда-нибудь, как нейросеть вместо обещанного шедевра выдает существо с шестью пальцами или пластиковой кожей, больше напоминающей манекен из дешёвого магазина? Разочарование от потраченных кредитов или времени знакомо многим новичкам, пытающимся с наскока покорить Midjourney или Stable Diffusion. Кажется, что искусственный интеллект просто издевается, игнорируя очевидные запросы. Но вся соль в том, что машина не понимает абстрактных желаний, она работает исключительно по чёткому техническому заданию, где каждое слово имеет вес, цвет и фактуру. А начать стоит с осознания того, что грамотный промт — это не просто набор тегов, а настоящее заклинание, требующее соблюдения синтаксиса и логики.
С чего начинается запрос?
Сложно ли составить работающую структуру? Вовсе нет, если разложить процесс по полочкам. Фундамент любого качественного изображения держится на «трёх китах»: объекте, окружении и технических параметрах. Сначала мы обозначаем главного героя, будь то девушка в вечернем платье или суровый старик с трубкой. Далее следует описание контекста, ведь персонаж не может висеть в вакууме. К слову, именно фон часто задает настроение всему кадру. Ну и, наконец, в игру вступают спецификации камеры, освещения и стиля, которые превращают цифровую мазню в фотореализм.
Особый интерес вызывает детализация объекта. Не стоит ограничиваться скупым «woman». Лучше добавить эпитетов, описывающих возраст, этническую принадлежность, эмоции и даже текстуру кожи. Использование таких слов, как «highly detailed skin pores», «imperfections» или «freckles», творит чудеса, заставляя алгоритмы прорисовывать мельчайшие нюансы лица. Ведь именно несовершенства делают портрет живым.
Портретная съёмка
Как получить лицо, которое не отличить от фотографии в глянцевом журнале? Здесь на помощь приходят термины из мира профессиональной фотографии. Если вы хотите получить крупный план, начните с фразы «Close-up portrait». Дополните образ уточнением освещения. Например, «Rembrandt lighting» создаст драматичный объём с характерным треугольником света на щеке, а «softbox lighting» обеспечит мягкую, коммерческую картинку без резких теней.
Довольно часто новички забывают указывать модель камеры. А ведь это мощнейший инструмент влияния на результат. Попробуйте добавить в конец промта конструкцию «shot on Sony A7R IV, 85mm lens, f/1.8». Это даст нейросети команду размыть задний план (эффект боке) и сфокусироваться на глазах модели. Выглядит впечатляюще.
Пример готового промта для реалистичного женского портрета можно сформулировать так:
Ultra realistic photo of a young scandinavian woman, natural look, no makeup, blue eyes, freckles, messy bun hair, soft morning light coming from window, cozy atmosphere, shot on Canon EOS R5, 50mm lens, f/1.2, depth of field, 8k, hyperdetailed
Обратите внимание, как технические параметры идут в конце, закрепляя результат.
Фэшн-фотография: Стиль
А что, если задача стоит иначе, и нужно показать одежду во всей красе? Тут акценты смещаются. Лицо модели уходит на второй план (хотя и остается важным), а солирует текстура ткани, крой и поза. Фэшн-съёмка тяготеет к динамике. Статичные позы выглядят скучно и «дёшево». Поэтому стоит использовать глаголы действия: «walking», «dancing», «jumping».
Не забудьте про ткани. ИИ отлично понимает разницу между «silk», «denim», «leather» и «wool». Упоминание конкретного материала заставит алгоритм проработать складки и отражения света именно так, как это происходит в физическом мире. Ну и, конечно же, окружение должно соответствовать образу. Странно видеть вечернее платье в лесу (хотя для сюрреализма — самое то), но гармоничнее оно будет смотреться в интерьерах оперы или на красной дорожке.
Вот вариант для уличной моды:
Full body shot of a stylish man wearing oversized beige trench coat and black turtlеneck, walking down a rainy Tokyo street at night, neon signs reflections in puddles, cyberpunk vibe, street photography, candid shot, high contrast, Kodak Portra 400 film style
Упоминание пленки Kodak добавляет изображению характерное зерно и цветокоррекцию, что делает его «тёплым» и ламповым.
Свет и оптика
Можно ли испортить идеальную композицию плохим светом? Запросто. Освещение — это душа фотографии. С ним можно играть бесконечно. «Golden hour» (золотой час) подарит тёплые, медовые оттенки, идеально подходящие для романтических сцен или пейзажей. А вот «Blue hour» (сумерки) создаст меланхоличное, прохладное настроение.
Существует и более сложное, студийное освещение. «Cinematic lighting» — универсальный ключ к тому, чтобы картинка выглядела как кадр из дорогого фильма. Если же хочется чего-то более жёсткого и контрастного, стоит попробовать «chiaroscuro» (кьяроскуро) — технику, построенную на резком противостоянии света и тени. Тем более, что нейросети обучались на классической живописи и отлично понимают этот термин.
Оптика тоже вносит свою лепту. Широкоугольный объектив («16mm lens» или «fisheye») искажает перспективу, делая кадр эпичным или комичным, в то время как телеобъектив («200mm lens») сжимает пространство, визуально приближая задний план к объекту. Экспериментировать с этим довольно увлекательно.
Интерьерная съёмка
Сфотографировать человека сложно, а помещение? Казалось бы, стены никуда не убегают. Однако и здесь есть свои подводные камни. Главная проблема — геометрия. Нейросети часто «заваливают» линии, делая углы кривыми, а мебель — асимметричной. Чтобы этого избежать, используйте маркеры симметрии и профессиональные термины вроде «architectural photography» или «interior design magazine style».
Важно задать стиль помещения. Будет ли это «minimalism», «scandinavian style», «industrial loft» или, может быть, «baroque»? От этого зависит палитра и наполнение кадра мебелью. Свет в интерьере играет решающую роль. Естественный свет из окна («natural light») делает комнату жилой и уютной, а искусственный («ambient light», «track lighting») подчеркивает дизайнерские решения.
Пример для уютной гостиной:
Interior photography of a modern living room in Japandi style, beige and wooden tones, minimal furniture, huge panoramic window with view on snowy forest, fireplace, warm lighting, hyperrealistic, Unreal Engine 5 render style, 8k resolution, architectural digest
Упоминание движка Unreal Engine 5 часто помогает добиться невероятной чёткости и правильной работы со светом.
Художественная стилизация
Иногда хочется уйти от реальности и создать что-то фантастическое. Нейросети — это настоящий кладезь для экспериментов со стилями. Вы можете попросить ИИ «снять» фотосессию в стиле известных режиссёров. Фраза «in the style of Wes Anderson» мгновенно сделает кадр симметричным, а цвета — пастельными и насыщенными. А вот «in the style of Tim Burton» добавит готики, вытянутых пропорций и мрачности.
Интересные результаты дает смешение эпох. Попробуйте перенести современный гаджет в эпоху Возрождения или одеть средневекового рыцаря в костюм от Adidas. Такие анахронизмы (если они сделаны намеренно) приковывают внимание и вызывают желание рассматривать детали.
Для любителей ретро отлично подойдет имитация старых процессов. «Daguerreotype» сделает изображение чёрно-белым, с характерными царапинами и виньетированием. «Polaroid» добавит мягкости и ностальгии. Это же правило касается и имитации живописи, если вдруг захочется превратить фотосессию в арт-проект.
Чего лучше избегать?
Есть ли слова, которые портят генерацию? Безусловно. Не стоит перегружать промт абстрактными понятиями вроде «beauty», «amazing», «success». Для машины это пустой звук. Она не знает, что такое «успех», но она знает, как выглядит «man in a suit smiling and holding money». Конкретика всегда побеждает абстракцию.
Ещё одна частая ошибка — слишком длинные предложения. ИИ начинает «забывать» начало фразы, если вы напишете целый роман. Лучше разбивать описание на логические блоки, разделенные запятыми. Вес слов, стоящих в начале промта, всегда выше, чем у тех, что в конце. Поэтому самое важное выносим вперед.
Не скупитесь на так называемые Negative Prompts (негативные подсказки). Во многих интерфейсах для этого есть отдельное поле. Туда стоит вписать все то, что вы не хотите видеть: «ugly», «deformed», «extra fingers», «bad anatomy», «blur», «watermark». Это своего рода фильтр, отсекающий брак.
Готовые решения
Чтобы не быть голословным, приведу ещё несколько конструкций, которые можно брать за основу и модифицировать под свои нужды. Это добротный фундамент для старта.
Для предметной съёмки (еда, гаджеты, духи):
Professional product photography of a bottle of expensive perfume, splashing water around, dark background, dramatic studio lighting, sharp focus, 8k, advertising shot, macro photography, luxury vibe
Здесь ключевую роль играют слова «splashing water» (добавляет динамику) и «macro photography» (показывает детали).
Для футуристического портрета:
Cyberpunk girl portrait, neon lights reflecting on face, wet skin, futuristic glasses, rain in background, night city bokeh, blue and pink color palette, synthwave style, highly detailed, digital art masterpiece
Палитра цветов здесь задает тон всему изображению.
Для съёмки животных:
Cute fluffy kitten playing with yarn, sitting on a persian rug, shallow depth of field, bright natural light, sharp eyes, adorable expression, shot on Nikon D850, national geographic style photo
Ссылка на National Geographic сразу подтягивает определенный стандарт качества и композиции.
Нюансы работы с версиями нейросетей
Стоит отметить, что разные модели ИИ по-разному реагируют на одни и те же слова. Midjourney, например, более художественна и понимает короткие, образные запросы. Stable Diffusion любит точность и хорошо работает с длинными списками тегов. DALL-E 3 отлично понимает естественный язык и разговорную речь, поэтому с ним можно общаться почти как с человеком.
Впрочем, есть универсальные «усилители», которые понимают почти все. Слова «4k», «8k», «HDR», «UHD» работают как сигнал к повышению разрешения. А термины вроде «trending on ArtStation» или «Behance» (хоть это и платформы для художников) подсказывают алгоритму, что нужно ориентироваться на топовые работы с хорошей композицией и цветом.
Тем более, что прогресс не стоит на месте. С выходом новых версий (например, v5 или v6 в Midjourney) необходимость в огромных «портянках» текста отпадает. Машины становятся умнее и начинают понимать контекст с полуслова. Однако базовые принципы построения кадра — свет, композиция, объект — остаются неизменными.
Как выбрать ракурс?
Ракурс способен кардинально изменить восприятие снимка. Съёмка с нижней точки («low angle shot») придает объекту величия, монументальности. Человек кажется выше, значительнее. Съёмка сверху («high angle shot» или «drone shot»), наоборот, делает объект маленьким, уязвимым или показывает масштаб окружения.
Для портретов классикой считается уровень глаз («eye level»). Это создает эффект присутствия и контакта с зрителем. Но если хочется динамики, попробуйте «dutch angle» (голландский угол) — когда камера слегка наклонена. Это вызывает чувство тревоги или движения, что отлично подходит для экшн-сцен.
И всё же, не бойтесь нарушать правила. Иногда самый странный ракурс в сочетании с неожиданным освещением дает тот самый уникальный результат, за которым гонятся все цифровые художники.
Подводные камни детализации
Бывает так, что промт идеален, а лицо всё равно выглядит «мыльным». Дело в том, что нейросети иногда сложно сфокусироваться на лице, если в кадре слишком много мелких деталей одежды или фона. Ресурс системы распыляется. В таком случае помогает команда «focus on face».
Также стоит помнить про разрешение сторон (aspect ratio). Для портретов лучше использовать вертикальный формат (–ar 2:3 или –ar 9:16), для пейзажей — горизонтальный (–ar 16:9 или –ar 3:2). Квадрат (1:1), который часто стоит по умолчанию, не всегда выгоден с точки зрения композиции, хотя и универсален для социальных сетей.
Махинации с весом слов — ещё один уровень мастерства. В некоторых интерфейсах можно поставить двойное двоеточие и цифру после слова (например, “red hair::2”), чтобы сказать ИИ: «Это в два раза важнее, чем все остальное». Это помогает, когда нейросеть упорно игнорирует какую-то деталь вашего замысла.
Эксперименты — ключ к успеху
Генерация изображений — это процесс, где количество переходит в качество. Редко когда первый же вариант оказывается идеальным. Обычно приходится делать десятки итераций, меняя одно-два слова, переставляя их местами, играя со светом и стилем. Это кропотливый, но увлекательный труд.
Не существует единственно верного «волшебного» промта. Есть лишь конструктор, детали которого вы подбираете сами. И чем глубже вы погружаетесь в терминологию классической фотографии, живописи и кинематографа, тем послушнее становится искусственный интеллект в ваших руках.
Пробуйте, смешивайте несочетаемое, добавляйте неожиданные параметры и не бойтесь ошибок. Ведь каждая неудачная генерация приближает вас к пониманию того, как «мыслит» машина. Пусть ваша виртуальная камера всегда будет сфокусирована, а свет падает именно так, как вы задумали. Удачных вам кадров и вдохновения.