Как правильно писать промты для изображений (с примерами готовых промтов)

Сколько раз вы с надеждой вводили запрос в нейросеть, ожидая получить шедевр цифрового искусства, а на выходе видели нечто с шестью пальцами, глазами на затылке или вовсе бесформенное пятно? Ощущение, знакомое многим. Кажется, что искусственный интеллект просто издевается, игнорируя ваши гениальные идеи. Однако проблема зачастую кроется не в «глупости» алгоритма, а в том, как именно мы формулируем свои мысли. Ведь машина не умеет читать между строк, она воспринимает всё буквально, превращая слова в пиксели с математической точностью. И чтобы этот цифровой художник начал творить чудеса, а не плодить монстров, нужно выучить его язык.

С чего начинается диалог?

Сложно ли это? На первых порах — безусловно. Но главное здесь — понимание структуры. Любой запрос, или, как принято говорить в профессиональной среде, промт, строится по определённой логике. Хаос в словах порождает хаос в изображении. Фундаментом всегда выступает объект. Это может быть человек, животное, здание или абстрактная концепция. Но просто написать «кот» — значит отдать инициативу на откуп случаю. Нейросеть, конечно, нарисует кота. Но какого? Рыжего, чёрного, мультяшного или, может быть, кибернетического? Поэтому первым делом стоит максимально конкретизировать объект. «Пушистый рыжий мейн-кун» даст куда более предсказуемый результат. А если добавить действие, картинка оживёт. Пусть наш мейн-кун не просто сидит, а «охотится за бабочкой в высокой траве».

Анатомия идеального запроса

Далее следует окружение и контекст. Здесь кроется львиная доля успеха. Обыватель часто забывает об этом, получая персонажа в белой пустоте. А ведь именно фон создаёт атмосферу. Где происходит действие? В лесу, на космической станции, в средневековом замке или на улицах киберпанк-города? Описание среды должно быть довольно подробным, но без лишней «воды». Можно указать время суток. «Рассвет» окрасит кадр в нежные розовые тона, а «полночь» добавит таинственности и глубоких теней.

Особый интерес вызывает стиль исполнения. Это тот самый «соус», под которым подаётся основное блюдо. Хотите получить фотографию? Укажите это. «Photorealistic», «shot on 35mm lens», «4k». Или, может быть, вы грезите о живописи? Тогда в ход идут имена художников или названия течений. «Oil painting in the style of Van Gogh» или «digital art, artstation style». Нейросети обучались на миллиардах изображений, и отсылки к известным авторам или стилям помогают им мгновенно настроить нужную палитру и технику штриха. К слову, смешивание стилей порой даёт совершенно неожиданный, но колоритный результат.

Свет и цвет

Освещение — это инструмент, который творит чудеса. Плоский свет убивает объём, превращая картинку в дешёвый коллаж. Поэтому не стоит скупиться на описания световых схем. Самый простой и надёжный вариант — «cinematic lighting» (кинематографичное освещение). Он добавляет драматизма и глубины. Если же нужно что-то более мягкое, подойдет «soft natural light» (мягкий естественный свет). А для создания зловещей или загадочной атмосферы отлично работает «volumetric lighting» (объёмный свет), который создаёт красивые лучи, пробивающиеся сквозь туман или пыль. Есть ещё и «rim light» (контровой свет), который эффектно подсвечивает контуры объекта, отделяя его от фона. И всё же, главное — не перегружать промт противоречивыми терминами. Если вы укажете «sunny day» (солнечный день) и «dark gloomy atmosphere» (тёмная мрачная атмосфера) одновременно, нейросеть может выдать нечто серое и невнятное.

Технические нюансы

Цифры важны. Это факт. Ведь параметры соотношения сторон (aspect ratio) напрямую влияют на композицию. В Midjourney, например, это задается командой –ar. Стандартный квадрат 1:1 хорош для аватарок, но для пейзажей лучше использовать 16:9, а для портретов в полный рост — 9:16. Также стоит упомянуть параметр хаоса или стилизации, который отвечает за то, насколько вольно нейросеть будет интерпретировать ваш запрос. Высокая стилизация может сделать картинку невероятно красивой, но далекой от первоначальной задумки. А вот низкая заставит ИИ следовать вашим словам с педантичной точностью, что не всегда хорошо для художественности.

Нужно ли быть программистом?

Вовсе нет. Синтаксис довольно прост. Английский язык по-прежнему остаётся основным языком общения с большинством популярных моделей (Midjourney, Stable Diffusion, DALL-E). Хотя некоторые уже понимают и русский, качество генерации на родном языке нейросети обычно выше. Приоритет слов в промте тоже имеет значение. Те слова, что стоят в начале, имеют больший вес. Поэтому самое важное выносим вперед. Если вы напишете «мужчина в шляпе на фоне взрыва», взрыв может оказаться важнее мужчины. А если «взрыв за спиной мужчины в шляпе», акцент сместится. К тому же, можно использовать весовые коэффициенты (в Stable Diffusion это скобки, в Midjourney — двойное двоеточие с цифрой), чтобы искусственно усилить значимость конкретного слова.

Примеры готовых решений

Разберём конкретику. Допустим, нам нужен качественный фотореалистичный портрет. Просто написать «beautiful girl» — значит получить усреднённое кукольное лицо. Попробуем собрать сложный, добротный современный промт.

Portrait of an elderly fisherman with a weathered face and a thick white beard, wearing a yellow raincoat, standing on a stormy pier, crashing waves in the background, dark cloudy sky, hyperrealistic, shot on Sony A7R IV, 85mm lens, f/1.8, sharp focus, cinematic lighting, dramatic mood, 8k resolution.

Здесь мы задали характер и одежду. Добавили окружение и атмосферу. Такой набор тегов даст нейросети четкую инструкцию: нужно фото, нужен фокус на лице, нужно размытие фона (f/1.8) и высочайшая детализация.

А если душа просит фэнтези?

Задача не из лёгких. Тут важна фантазия. Попробуем создать сказочный пейзаж.

Majestic floating island with a crystal castle on top, waterfalls cascading down into the clouds, surrounded by flying dragons, sunset with purple and pink clouds, fantasy art, digital painting, style of World of Warcraft, intricate details, magical atmosphere, glowing runes, art by Greg Rutkowski, masterpiece, best quality, trending on ArtStation.

Здесь можно обратиться к цифровой живописи. Можно добавить имена художников, чьи работы часто используются как референс для эпических сцен. Итоговый результат поразит своей проработкой, если не забыть про качество.

Для любителей киберпанка подойдет следующий рецепт:

Cybernetic samurai girl with neon katana, walking through a rainy futuristic Tokyo street at night, neon signs reflecting in puddles, cyberpunk style, synthwave colors, volumetric fog, neon blue and pink lights, realistic textures, ray tracing.

Этот промт гарантированно выдаст сочную, контрастную картинку с обилием деталей.

Подводные камни

Однако не всё так гладко. Часто нейросеть добавляет лишние объекты или искажает анатомию. Тут на помощь приходит Negative Prompt (негативный промт). Это список того, чего мы НЕ хотим видеть. В него обычно вписывают:

ugly, deformed, extra fingers, missing limbs, blurry, low quality, watermark, text, bad anatomy.

В Midjourney это делается через параметр –no. Например, «–no text» уберет попытки нейросети написать непонятные иероглифы на картинке. К слову, многие новички пренебрегают этим инструментом, а зря. Ведь именно он помогает «почистить» генерацию от мусора.

Стоит ли гнаться за длиной?

Существует заблуждение, что чем длиннее промт, тем лучше результат. Это не совсем так. Огромные «стены текста» часто путают нейросеть. Она начинает терять нить повествования и смешивать понятия. Лучше использовать лаконичные, но емкие описания. Вместо «красивый, великолепный, потрясающий, невероятный, чудесный закат» напишите просто «breathtaking sunset». Эпитеты должны нести смысловую нагрузку, а не просто занимать место. К тому же, токены (единицы информации, которые обрабатывает сеть) имеют лимит. Если вы превысите его, конец вашего промта будет просто обрезан и проигнорирован.

Стилизация под материалы

Отдельно стоит упомянуть имитацию материалов. Это настоящий кладезь для дизайнеров. Хотите, чтобы ваш объект выглядел так, будто он сделан из пластика, дерева или металла? Укажите это прямо. «Isometric cute 3d house made of clay» (изометрический милый 3D домик из глины) создаст ощущение, что перед вами поделка из пластилина. А «chess piece made of transparent glass with liquid galaxy inside» (шахматная фигура из прозрачного стекла с жидкой галактикой внутри) выдаст невероятно сложную текстуру, которую вручную рисовать пришлось бы часами. Такие промты отлично подходят для создания иконок, игровых ассетов или концепт-артов.

Работа с референсами

Иногда словами описать желаемое довольно сложно. В таком случае можно «скормить» нейросети готовую картинку. В Midjourney это делается вставкой ссылки на изображение в начало промта. Нейросеть проанализирует композицию и цветовую гамму исходника и попытается создать нечто похожее, опираясь на ваше текстовое описание. Это спасательный круг, когда нужно сохранить позу персонажа или общую стилистику серии изображений. Но не стоит ждать точной копии. ИИ всегда вносит свою лепту, и результат будет скорее вариацией на тему, чем клоном.

Ложка дёгтя

Разумеется, с первого раза получается редко. Генерация изображений — это процесс итеративный. Приходится менять слова местами, подбирать синонимы, играть с весами и настройками. Иногда одно единственное слово кардинально меняет всю картину. Например, замена «angry» (злой) на «furious» (яростный) может превратить просто нахмуренного персонажа в берсерка с налитыми кровью глазами. Поэтому терпение — главный добродетель промпт-инженера. Да и самим экспериментам конца и края не видно, ведь модели обновляются чуть ли не каждый месяц, и то, что работало вчера, сегодня может потребовать иного подхода.

Абстракция и логотипы

Создание логотипов — отдельная тема, которая довольно часто интересует бизнес. Тут нужен минимализм. Промты вроде «minimalist vector logo of a coffee shop, flat design, white background, simple lines» работают лучше всего. Важно отсечь все лишнее через негативный промт: «no shading, no realism, no details». Иначе нейросеть попытается нарисовать фотореалистичную чашку кофе, которую невозможно будет использовать как векторный знак. То же касается и абстрактных фонов. Используйте слова «abstract flowing shapes, gradient colors, liquid texture», чтобы получить стильные обои для рабочего стола или подложку для сайта.

Нюансы восприятия

Надо понимать, что разные нейросети имеют свой «вкус». Midjourney тяготеет к художественности и эпичности. Она по умолчанию старается сделать красиво, даже если промт короткий. Stable Diffusion — это конструктор для тех, кто любит полный контроль. Там результат зависит от модели (checkpoint), которую вы используете. DALL-E 3 отличается тем, что отлично понимает сложный естественный язык и может точно расставить объекты в кадре, но иногда страдает от излишней «мультяшности». Поэтому выбор инструмента зависит от задачи. Для фотореализма людей сейчас часто выбирают кастомные сборки Stable Diffusion, а для концепт-арта и креатива — Midjourney.

Как не нарушить правила?

Нельзя не упомянуть и про этические ограничения. Большинство публичных нейросетей имеют встроенные фильтры. Насилие, контент 18+, реальные политики и знаменитости в компрометирующих ситуациях — всё это заблокировано. Попытки обойти эти запреты сложными формулировками могут привести к бану аккаунта. Лучше направить свою энергию в мирное русло. Тем более, что простор для творчества и без «запрещёнки» поистине грандиозный.

Финальный штрих

В процессе создания промта полезно представлять себя режиссёром на съёмочной площадке. У вас есть актёры (объекты), декораторы (окружение), оператор (ракурсы и камеры) и осветители. Ваша задача — четко раздать команды каждому из них. Не бойтесь использовать профессиональную терминологию из мира кино и фотографии. Слова вроде «depth of field» (глубина резкости), «bokeh» (боке), «wide angle» (широкий угол) или «macro shot» (макросъемка) — это ключи к управлению вниманием зрителя. Они говорят нейросети, куда смотреть и что считать главным.

Экспериментируйте смелее, смешивайте несочетаемое, играйте со стилями и эпохами. Ведь именно в этих неожиданных комбинациях порой рождаются настоящие шедевры, способные удивить даже самого искушённого зрителя. Пусть каждый ваш запрос станет началом удивительного путешествия в мир бесконечных визуальных возможностей.