Знакомо ли вам чувство лёгкого разочарования, когда вместо шедевра цифрового искусства на экране появляется нечто с тремя ногами или совсем не той атмосферой, которую вы рисовали в воображении? Обидно, ведь в голове картинка выглядела идеально. Многие полагают, что нейросети — это некая магия, читающая мысли, но на самом деле это всего лишь сложный инструмент, требующий чётких инструкций и понимания внутренней логики алгоритма. А вся соль в том, что искусственный интеллект, встроенный в чат-бота (в данном случае DALL-E 3, работающий «под капотом» ChatGPT), воспринимает мир через текст, и качество результата напрямую зависит от вашего словарного запаса и умения структурировать запрос. И чтобы не тратить часы на генерацию бессмысленных картинок, стоит разобраться в анатомии идеального промта.
Как работает генерация?
Взаимодействие с визуальным модулем ChatGPT кардинально отличается от работы с другими нейросетями, вроде Midjourney. Главный нюанс — это наличие посредника. Вы не отдаёте команду напрямую генератору изображений. Ваш запрос сначала читает сам чат-бот, перерабатывает его, обогащает деталями (как ему кажется, нужными) и только потом отправляет на отрисовку. Хорошо ли это? С одной стороны, это спасательный круг для новичков, ведь можно написать «нарисуй красивого кота», и система сама добавит пушистую шерсть, мягкий свет и уютный диван. Однако для профи это часто становится проблемой. Ведь «умный» помощник может исказить первоначальный замысел, добавив отсебятины. Поэтому при создании промта для джипити важно не просто описывать объект, но и задавать жёсткие рамки, иногда даже прямо прося бота: «Не меняй мой промт, используй его дословно».
Анатомия запроса
С чего начинается построение грамотной команды? С определения главного героя. Это может быть человек, предмет, животное или абстрактная сущность. Но просто назвать объект — довольно мало. Ключевое значение имеет контекст и действие. Сравните два запроса: «Женщина в шляпе» и «Молодая женщина в широкополой соломенной шляпе идет по лавандовому полю на закате, оглядываясь назад». Разница колоссальная. Львиная доля успеха зависит от того, насколько подробно вы опишете сцену. Следующий слой — это стиль. Без указания стилистики нейросеть выберет что-то среднее, обычно напоминающее цифровую иллюстрацию или пластиковый 3D-рендер. Хотите фотореализм? Пишите об этом. Грезите об акварели? Укажите это.
Ну и, наконец, технические параметры. Даже если вы не фотограф, стоит использовать профессиональную терминологию. Слова вроде «глубина резкости» (depth of field), «широкий угол» (wide angle) или «макросъёмка» творят чудеса. И всё же перегружать запрос тоже не стоит. Длинные «простыни» текста нейросеть может просто проигнорировать в конце. Лучший вариант — это структура:
[Объект] + [Действие/Окружение] + [Стиль/Среда] + [Технические детали].
Стилизация изображения
Выбор визуального языка — это, пожалуй, самый творческий этап. Обыватель часто ограничивается словами «красиво» или «реалистично», но спектр возможностей куда шире. Для создания фотореалистичных изображений отлично работают привязки к конкретному оборудованию. Попробуйте добавить в промт фразы «снято на 35мм» (shot on 35mm lens) для классического репортажного вида или «85мм портретный объектив» (85mm portrait lens) для красивого размытия фона. Это же правило касается и плёночной эстетики. Упоминание конкретных плёнок, например Kodak Portra 400 или Fujifilm, мгновенно меняет цветокоррекцию, добавляя изображению теплоты и зернистости.
А если хочется уйти от реальности? Тут на помощь приходят художественные стили. Можно запросить векторную графику (flat vector art) для создания иконок или логотипов. Выглядит это всегда стильно и лаконично. Для любителей фантастики подойдёт стиль киберпанк (cyberpunk) или синтвейв (synthwave) с их неоновыми огнями и фиолетовыми тенями. Отдельно стоит упомянуть имитацию традиционных материалов. Масляная живопись (oil painting), угольный набросок (charcoal sketch) или даже техника импасто (impasto) с густыми мазками — всё это под силу алгоритму. Главное — не стесняться смешивать. Порой сочетание несочетаемого, скажем, «киберпанк в стиле Ван Гога», выдает поистине грандиозный результат.
Работа со светом
Освещение — это душа фотографии, даже если она сгенерирована. Плоский свет убивает объём, делая картинку скучной. Чтобы этого избежать, нужно управлять источниками света через текст. Самый простой и беспроигрышный вариант — «золотой час» (golden hour). Это время перед закатом, которое даёт мягкий, тёплый, обволакивающий свет. Но если ваша цель — драма и напряжение, используйте «кинематографичное освещение» (cinematic lighting) или «светотень» (chiaroscuro). Эти термины заставят нейросеть создать глубокие тени и яркие блики.
Для студийных портретов отлично подходит схема «свет Рембрандта» (Rembrandt lighting), создающая характерный треугольник света на щеке модели. А вот для предметной съёмки лучше использовать «мягкий бокс» (softbox lighting) или «студийный свет» (studio lighting), чтобы показать текстуру продукта без резких теней. Не стоит забывать и про атмосферные эффекты. Объёмный свет (volumetric lighting) или «лучи бога» (god rays), пробивающиеся сквозь туман или листву, добавляют эпичности любому пейзажу. Ну а для ночных сцен идеально подходит биолюминесценция или неоновая подсветка.
Примеры портретных промтов
Теория — это хорошо, но как это выглядит на практике? Допустим, нам нужен выразительный мужской портрет. Не стоит писать «мужчина лицо». Лучше сформулировать так:
«Крупный план, портрет пожилого рыбака с глубокими морщинами и обветренным лицом, в жёлтом дождевике. Взгляд направлен прямо в камеру. Фон — штормовое море, размытый (боке). Освещение драматичное, пасмурное небо. Высокая детализация, текстура кожи, снято на 85мм, стиль National Geographic».
В этом запросе мы задали и героя, и одежду, и фон, и настроение. Результат будет живым и фактурным. А вот пример для женского фэшн-портрета:
«Молодая женщина с авангардным макияжем, футуристическая одежда из полупрозрачного пластика. Студийное освещение, цветной гель (синий и розовый свет). Поза динамичная. Фон однотонный тёмный. Глянцевая фотография, стиль журнала Vogue, высокое разрешение».
Здесь мы играем с искусственным светом и материалами, создавая образ для глянца.
Пейзажи и архитектура
Сложно ли создать реалистичный интерьер? Вовсе нет. Секрет кроется в деталях и стиле. Попробуйте такой промт:
«Современная гостиная в стиле джапанди (смесь японского и скандинавского). Минимализм, низкая деревянная мебель, большие панорамные окна с видом на осенний лес. Естественный утренний свет, мягкие тени. Уютная атмосфера, на столе стоит чашка дымящегося кофе. Фотореалистично, 4k, архитектурная фотография».
Тут мы задали конкретный стиль интерьера и добавили «жизни» с помощью кофе и света. Для уличной фотографии подойдёт следующий сценарий:
«Дождливая улица Токио ночью. Неоновые вывески отражаются в лужах. Люди под прозрачными зонтами. Киберпанк атмосфера. Вид от первого лица или с уровня земли. Кинематографично, высокая контрастность, детальная прорисовка города».
Указание ракурса («с уровня земли») кардинально меняет восприятие, делая зрителя участником событий.
Предметная съёмка и еда
Продающие картинки товаров — это настоящий кладезь возможностей для бизнеса. Чтобы получить «вкусное» изображение еды, используйте такой шаблон:
«Аппетитный бургер с сочной котлетой, расплавленным сыром и каплями воды на свежих овощах. Макросъёмка. Тёмный деревянный стол. Задний план слегка размыт. Профессиональное освещение еды (food photography), яркие цвета, пар поднимается от мяса».
Ключевые слова здесь — «аппетитный», «макросъёмка» и «пар», они активируют нужные ассоциации у нейросети. Если же нужно изобразить флакон духов или гаджет, подход меняется:
«Стеклянный флакон духов с золотой крышкой, стоящий на зеркальной поверхности посреди воды. Вокруг летают лепестки роз. Кристальная чистота, элегантность. Рекламная фотография продукта, студийный свет, отражения, высокое разрешение».
Здесь упор делается на материалы (стекло, золото) и чистоту кадра.
Ошибки, которых стоит избегать
Даже с хорошим промтом можно получить странный результат. Самая частая ошибка — это противоречивые команды. Если вы просите «солнечный день» и «ночное небо» одновременно, нейросеть выдаст галлюцинацию. Также не стоит перебарщивать с отрицаниями. Фразы вроде «без людей», «не красный», «без деревьев» алгоритмы понимают плохо. ИИ часто игнорирует частицу «не» и радостно рисует именно то, что вы просили не рисовать. Лучше просто не упоминать объект или описать пустую сцену: «Пустынная улица» вместо «Улица без людей».
Ещё один нюанс — слишком абстрактные понятия. «Любовь», «успех», «счастье» для машины — пустой звук. Она визуализирует их через банальные клише: сердечки, рукопожатия, улыбки. Хотите показать успех? Опишите атрибуты: дорогой костюм, вершина горы, финишная лента. Конкретика всегда побеждает абстракцию. И, безусловно, избегайте «винегрета» из стилей. Смешать Пикассо и фотореализм можно, но результат будет, мягко говоря, на любителя.
Стоит ли доверять вкусу нейросети?
Вопрос риторический. ChatGPT в режиме DALL-E 3 имеет свойство «улучшать» ваши промты. Иногда это спасает, когда идей нет, но часто — мешает. Если вы видите, что бот упорно рисует мультяшную графику вместо фото, добавьте в конце промта фразу: «Стиль сырой фотографии (raw photo style), никакой иллюстрации». Это обычно отрезвляет алгоритм. Также полезно указывать соотношение сторон сразу в запросе, например «широкоформатное изображение» (wide aspect ratio) или «вертикальное для сторис» (vertical aspect ratio), хотя сейчас это можно выбрать и в настройках, но прописать текстом — надёжнее.
Создание промтов — это процесс не сложный, но кропотливый, требующий практики. Натыкаешься на удачную формулировку — сохраняй её. Ведь именно ваш уникальный набор слов, ваш «лексический код» превращает бездушную генерацию в осмысленное творчество. Не бойтесь экспериментировать, удалять лишнее и добавлять странное. В конце концов, именно в неожиданных сочетаниях рождаются самые запоминающиеся визуальные образы. Теперь ваша очередь открыть чат и попробовать создать свой маленький шедевр. Удачи в генерациях!