Миллионы пользователей ежедневно заходят в диалоговое окно нейросети с одной и той же целью — создать визуальный шедевр нажатием одной кнопки. Казалось бы, технологии шагнули настолько далеко, что достаточно написать «сделай красиво», и искусственный интеллект тут же выдаст картинку уровня мировых фотобиеннале. Однако реальность довольно часто разбивает эти розовые очки стёклами внутрь: вместо ожидаемого фотореализма на экране появляется пластиковый суррогат с нарушенной анатомией или странным освещением. Проблема здесь кроется вовсе не в отсутствии таланта у машины, а в неумении человека правильно сформулировать задачу на понятном алгоритму языке. Но чтобы не ошибиться и превратить генерацию в управляемый процесс, стоит разобраться в самой механике создания запросов.
Как работает связка ChatGPT и DALL-E?
Многие считают, что чат-бот передаёт их слова генератору изображений дословно, но на самом деле под капотом происходит довольно сложная магия. Чат-бот, выступая в роли посредника, «переписывает» ваш короткий промт в развернутую, детальную инструкцию для DALL-E 3. Это палка о двух концах. С одной стороны, система помогает новичкам, добавляя детали, о которых пользователь забыл. С другой — она привносит в изображение «отсебятину», которая порой напрочь убивает изначальную задумку. Стоит отметить, что для получения полного контроля над результатом эту «помощь» лучше ограничивать или направлять в нужное русло. Ведь именно вы должны выступать режиссёром кадра, а не случайный алгоритм.
Анатомия идеального запроса
Секрет качественного изображения — в его слоистой структуре. Начинать описание всегда стоит с главного объекта, который будет центром композиции. Это может быть человек, архитектурное сооружение или абстрактная фигура. Далее следует контекст или окружение, ведь именно фон задает атмосферу и рассказывает историю. Следующим слоем накладывается освещение, которое формирует объём и настроение. Отдельно стоит упомянуть стилистику, будь то киберпанк, винтажное фото или гиперреализм. А завершает этот словесный пирог техническое описание, включающее параметры камеры, плёнки или рендера. Скрупулезный подход к каждому из этих этапов гарантирует, что на выходе вы получите добротный продукт, а не случайную галлюцинацию нейросети.
Что насчет освещения?
Свет в фотографии — это не просто возможность разглядеть предметы, а мощнейший инструмент драматургии. Игнорировать его описание — значит отдать львиную долю атмосферы на откуп рандому. Довольно просто изменить восприятие сцены, указав «золотой час» (Golden Hour), что зальёт кадр тёплым, мягким светом заходящего солнца. Если же задача стоит создать что-то более драматичное и контрастное, то на помощь придет «кинематографичное освещение» (Cinematic Lighting) или даже нуар с его глубокими тенями. А вот для предметной съёмки идеально подойдет «студийный свет» (Studio Lighting) или «софтбокс», обеспечивающий мягкие тени и хорошую проработку деталей. Кстати, упоминание «объёмного света» (Volumetric Lighting) часто творит чудеса, добавляя в воздух пылинки и лучи, пробивающиеся сквозь туман или листву.
Влияет ли указание камеры на результат?
Безусловно, нейросеть — это не физический фотоаппарат, но она обучена на миллионах снимков с реальными метаданными. Поэтому указание конкретной модели камеры или объектива кардинально меняет картинку. Например, фраза «снято на GoPro» (Shot on GoPro) неминуемо искривит перспективу, создавая эффект рыбьего глаза. А если попросить сымитировать снимок на 35-миллиметровую плёнку (Shot on 35mm film), изображение приобретет характерное зерно и специфическую цветопередачу, свойственную аналоговой фотографии. Тем более, что можно управлять даже глубиной резкости. Указание диафрагмы f/1.8 или f/2.8 заставит фон красиво размыться в боке, акцентируя внимание на герое. Это же правило касается и выдержки: длинная выдержка (Long Exposure) позволит размазать движение воды или огней ночного города, создавая динамику в статичном кадре.
Примеры портретных промтов
Теория без практики мертва. Рассмотрим конкретный сценарий создания реалистичного портрета, который не стыдно поставить на аватарку или использовать в дизайне. Задача не из лёгких. Ведь кожа человека — это сложнейшая текстура, на которой ИИ часто спотыкается, делая её слишком гладкой.
«Фотореалистичный портрет пожилого рыбака крупным планом, лицо испещрено глубокими морщинами, обветренная кожа, седая борода. Взгляд направлен прямо в камеру, глаза голубые и пронзительные. Освещение естественное, пасмурный день, мягкий рассеянный свет. Фон размыт (эффект боке), виднеется штормовое море и серые скалы. Высокая детализация, текстура кожи 8k, снято на Sony A7R IV, объектив 85mm f/1.4. Стиль National Geographic.»
Этот промт работает, потому что он последовательно описывает фактуру, свет и технические параметры. И всё же, если хочется чего-то более современного и глянцевого, запрос придется изменить.
«Студийный портрет молодой девушки с неоновым макияжем. Стиль киберпанк, цветовая палитра: фиолетовый, голубой и ярко-розовый. Освещение контрастное, цветные гелевые фильтры. Волосы мокрые, зачёсаны назад. Кожа имеет естественную текстуру с порами. Снято на Canon EOS R5, резкий фокус на глазах, высокая контрастность, модная фотография, журнал Vogue.»
Промты для предметной съёмки и еды
Бизнес довольно часто использует нейросети для создания контента, который не сильно ударит по кошельку, но будет выглядеть «дорого-богато». Представьте, что вам нужно сгенерировать изображение изысканного десерта для меню ресторана. Здесь важна аппетитность и правильная подача.
«Макросъемка шоколадного торта с текущей карамелью и свежей малиной сверху. Вид сбоку, разрез торта показывает влажные бисквитные слои. Освещение яркое, но мягкое, имитирующее утренний свет из окна. На заднем плане размытый интерьер уютной кофейни. Высокое разрешение, фуд-фотография, аппетитно, глянцевый блеск глазури. Снято на макрообъектив 100mm.»
А вот пример для рекламы парфюмерии, где нужно передать ощущение свежести и премиальности через экран.
«Стеклянный флакон духов прямоугольной формы стоит на мокром чёрном камне посреди горного ручья. Вокруг брызги воды, замороженные в движении (короткая выдержка). Освещение холодное, естественное, утренний туман. Минимализм, чистота, природные материалы. Реалистичный рендер продукта, 4k, рекламная фотография.»
Промты для пейзажей и архитектуры
Архитектурная визуализация требует особого внимания к геометрии и атмосфере. Нейросеть тяготеет к излишнему украшательству, поэтому в промтах для зданий стоит использовать ограничивающие слова вроде «минимализм» или «строгие линии».
«Современный загородный дом в стиле хай-тек из бетона и стекла, расположенный в густом сосновом лесу. Панорамные окна от пола до потолка, внутри горит теплый свет. Сумерки, глубокое синее небо, внешний свет от ландшафтных фонарей подсветки. Снято с нижней точки (low angle view) для придания величественности. Архитектурная фотография, журнал ArchDaily, гиперреализм.»
Если же душа просит чего-то фантастического, то можно отпустить тормоза и смешать несовместимое.
«Футуристический город, парящий в облаках, здания в стиле ар-деко с золотыми элементами, соединенные стеклянными мостами. Закат, облака окрашены в розовые и оранжевые тона. Летающие автомобили в ретро-стиле. Эпический масштаб, кинематографичная композиция, высокая детализация, стиль концепт-арт для видеоигры, движок Unreal Engine 5.»
Типичные ошибки и подводные камни
Натыкаешься на плохой результат чаще всего из-за противоречий в самом запросе. Нельзя одновременно требовать «минимализм» и «барочную детализацию» — нейросеть сойдет с ума и выдаст кашу. Другая распространенная ошибка — слишком короткие промты. Запрос «красивая девушка» для ИИ — это пустой звук, он выдаст усредненный шаблон. Не скупитесь на эпитеты и уточнения. Также не стоит забывать про соотношение сторон. По умолчанию ChatGPT делает квадратные изображения (1:1), но для сторис или обоев на рабочий стол этого недостаточно. В конце промта всегда можно добавить техническую просьбу: «Соотношение сторон 16:9» (Wide) или «9:16» (Vertical), хотя сейчас это лучше делать через выбор инструмента или отдельным сообщением в диалоге.
К слову, попытки вставить текст на изображение (названия брендов, вывески) до сих пор остаются ахиллесовой пятой генеративных моделей. Хотя DALL-E 3 справляется с этим лучше предшественников, ошибки в орфографии всплывут довольно часто. Лучше отказаться от генерации сложного текста и добавить его позже в фоторедакторе. Это надёжно. Потому что проверено. Временем.
Стилизация под конкретные эпохи и плёнок
Особый интерес вызывает эмуляция старых фотографий. Это настоящий клондайк для любителей эстетики. Чтобы получить убедительный винтаж, нужно знать названия легендарных плёнок.
«Уличная фотография Нью-Йорка 1970-х годов. Люди в ретро-одежде переходят дорогу. Зернистость плёнки, слегка выцветшие цвета, тёплые оттенки. Эстетика Kodak Portra 400. Случайный кадр, динамика, живая сцена. Снято на пленочную камеру Leica M6.»
Или же можно окунуться ещё глубже в историю.
«Чёрно-белый портрет угольщика, начало 20 века. Высокий контраст, жёсткие тени, грязь на лице. Текстура старой поцарапанной фотографии, виньетирование по краям. Дагерротип, историческое фото, серьёзная атмосфера.»
Нужно отметить, что использование названий конкретных художественных материалов (масло, акварель, уголь) или имён известных художников (Ван Гог, Айвазовский, Саймон Столенхаг) мгновенно меняет стиль генерации. Однако с именами стоит быть осторожнее — некоторые модели имеют ограничения на копирование стиля ныне живущих авторов во избежание юридических проблем. Но классиков копировать никто не запрещал.
Советы по доработке (In-painting и редактирование)
Даже самый выверенный промт не всегда дает стопроцентное попадание с первого раза. И здесь на сцену выходит возможность редактирования внутри ChatGPT. Не стоит переписывать весь промт заново, если картинка хороша, но у кота шесть лап. Достаточно выделить область с ошибкой и написать корректирующий промт: «Исправь лапы, сделай их четыре». Эта функция — настоящий спасательный круг для перфекционистов. К тому же, можно просить нейросеть менять время суток или сезон на уже сгенерированном изображении, сохраняя композицию.
Важность “веса” слов
В текстовых промтах порядок слов имеет значение. То, что стоит в начале предложения, имеет для нейросети больший вес, чем то, что написано в конце. Поэтому не прячьте главные объекты в дебрях описания фона. Сначала — кто, потом — где, и только затем — как. Если результат кажется вам перегруженным, попробуйте убрать лишние прилагательные. Лаконичность иногда играет на руку, особенно если вы стремитесь к сильным, знаковым образам.
Искусство промпт-инжиниринга — это навык, который требует тренировки и экспериментов. Не расстраивайтесь, если с первого раза не вышло. Пробуйте менять параметры, играйте со стилями, смешивайте несовместимое. В конечном счёте, нейросеть — это лишь мощный инструмент в ваших руках, а видение и идея всегда остаются за человеком. Пусть ваши генерации всегда радуют глаз и вызывают восторг у зрителей. Удачи в творческих поисках!