Как написать промт для генерации изображения (с примерами готовых промтов)

Знакомо ли вам чувство лёгкого разочарования, когда вместо шедеврального киберпанк-пейзажа нейросеть выдает невнятное пятно с покосившимися зданиями? В сети представлено множество галерей с идеальными артами, глядя на которые невольно начинаешь сомневаться в собственных способностях общения с искусственным интеллектом. Кажется, будто авторы этих работ обладают тайным знанием или доступом к какой-то “элитной” версии программы. На деле же всё упирается в умение формулировать мысли на языке, понятном машине. Обидно видеть, как гениальная задумка разбивается о стену непонимания алгоритма, превращаясь в цифровой мусор. Однако этот навык — не магия, а вполне осваиваемая логика, и начать погружение в неё стоит с базовых принципов построения запроса.

Анатомия запроса

С чего вообще начинается хороший промт? С фундамента. Нельзя просто бросить в строку ввода абстрактное «красивая картинка» и ждать чуда. Нейросеть — это исполнительный, но начисто лишённый фантазии (в человеческом понимании) художник. Ей нужна конкретика. Первым делом мы обозначаем объект. Это может быть кот, рыцарь, космический корабль или банка с огурцами. Но одинокий объект в вакууме выглядит скучно. Поэтому к нему тут же стоит добавить действие и контекст. Что делает наш рыцарь? Стоит? Сражается? Пьёт чай? Где это происходит? В лесу, на Марсе или в собственной кухне? Описывать сцену лучше от общего к частному. Сначала — главные действующие лица, затем — окружение.

Далее следует описание среды и освещения. Свет — это вообще отдельная тема. Он творит чудеса с восприятием. Плоское изображение мгновенно обретает объём, если добавить пару магических слов вроде «cinematic lighting» (кинематографичное освещение) или «volumetric light» (объёмный свет). Именно свет задает настроение. Мрачное, торжественное, уютное или пугающее — всё это регулируется не столько сюжетом, сколько именно световой схемой. Ну и, конечно же, не стоит забывать про детализацию. Слова «intricate details» (сложные детали) или «highly detailed» (высокодетализированный) дают команде сигнал прорисовывать мелочи, а не оставлять их мыльными пятнами.

Стилизация изображения

Важен ли стиль? Безусловно. Без четкого указания стиля нейросеть выдаст нечто усреднённое, похожее на обычный цифровой рисунок. А ведь спектр возможностей здесь поистине грандиозный. Можно потребовать от алгоритма имитацию масляной живописи («oil painting»), и тогда на картинке появятся характерные мазки. Любители японской анимации добавляют «anime style», получая характерные большие глаза и специфическую цветовую гамму. А если хочется чего-то совсем уж современного и технологичного, на помощь приходит «Unreal Engine 5 render» — этот тег заставляет картинку выглядеть как скриншот из дорогой видеоигры.

Отдельно стоит упомянуть использование имен художников. Это довольно мощный инструмент. Стоит добавить в промт «by Greg Rutkowski», и работа сразу приобретёт характерный эпический фэнтези-налёт, свойственный этому автору. Если же душа тяготеет к чему-то более сюрреалистичному, можно призвать дух Сальвадора Дали («by Salvador Dali»). Ван Гог добавит вихревых мазков, а Альфонс Муха — изысканных узоров и ар-нуво эстетики. Это своего рода чит-код. Машина обучена на миллионах изображений, и стили великих мастеров в её «мозгу» разложены по полочкам. Используя их имена, вы как бы задаете вектор, референс, которому нужно следовать.

Технические модификаторы

Качество картинки часто зависит от сухих технических параметров. Они не добавляют сюжета, но напрямую влияют на «товарный вид» результата. К примеру, соотношение сторон. По умолчанию многие сети генерируют квадрат. Но для обоев на рабочий стол нужен широкий формат. В Midjourney за это отвечает параметр --ar 16:9. Казалось бы, мелочь, а восприятие меняет кардинально. Ещё есть модификаторы разрешения. Теги «4k», «8k» или «ultra hd» работают как заклинание на повышение четкости. Нейросеть понимает, что от неё ждут высокой плотности пикселей и старается убрать шумы.

А что насчет хаоса? Иногда результат получается слишком уж правильным, скучным. Чтобы внести элемент неожиданности, используют параметры стилизации (в Midjourney это --s с числом). Высокое значение даёт волю «фантазии» алгоритма, низкое — держит его в ежовых рукавицах вашего описания. Тут уж, как говорится, на вкус и цвет. Ну и, наконец, негативные промты. Это спасательный круг для тех, кто устал от лишних рук, размытых лиц или ненужных объектов. В поле Negative Prompt (или с параметром --no) вписывают то, чего на картинке быть не должно: «ugly, blurry, low quality, extra limbs». Это работает как фильтр, отсекая львиную долю брака.

Разбор готовых примеров: Пейзажи

Давайте перейдём к практике и посмотрим, как это выглядит в живую. Допустим, мы хотим получить эпический пейзаж. Простой запрос «гора и лес» выдаст скучную картинку. А вот сложный, составной промт даст совершенно иной результат. Попробуйте ввести такую конструкцию:

Majestic mountain range, snowy peaks, ancient forest at the bottom, misty atmosphere, sunset lighting, golden hour, photorealistic, 8k, by Albert Bierstadt

Здесь мы видим четкую структуру. Сначала объект (величественный горный хребет), детали (снежные пики, древний лес), атмосфера (туман), освещение (золотой час) и стиль (фотореализм с отсылкой к художнику Бирштадту).

Если же хочется киберпанка, подход меняется. Здесь правят бал неон и дождь. Пример запроса мог бы звучать так:

Futuristic cyberpunk city street, raining, neon signs reflecting in puddles, flying cars, heavy traffic, night time, cyan and magenta color palette, highly detailed, octane render

Заметьте, как здесь используется цвет. Указание палитры («циан и маджента») сразу задает нужный тон, характерный для жанра. А «octane render» намекает на 3D-графику высокого качества. Выглядит впечатляюще, если не забыть про детали отражений.

Разбор готовых примеров: Портреты

С портретами дело обстоит сложнее. Человеческое лицо — это тот нюанс, на котором нейросети часто спотыкаются. Тут нужна предельная точность. Хороший промт для портрета может выглядеть следующим образом:

Close-up portrait of a young elven woman, silver hair, glowing blue eyes, intricate jewelry, soft skin texture, bokeh background, fantasy style, artstation trend, cinematic lighting

Слово «close-up» (крупный план) здесь критически важно. Без него нейросеть может нарисовать фигуру в полный рост, и лицо потеряет детализацию. Упоминание текстуры кожи («soft skin texture») помогает избежать эффекта пластиковой куклы.

А если мы хотим фотореалистичный портрет старика? Тогда стоит сместить акценты.

Portrait of an old fisherman, weathered face, deep wrinkles, white beard, wearing a raincoat, stormy sea background, dramatic lighting, sharp focus, photography by Steve McCurry

Ссылка на Стива Маккарри, мастера портретной фотографии, сразу даст нужную глубину взгляда и драматизм. «Sharp focus» (резкий фокус) проследит, чтобы лицо было четким, а фон — размытым. Это классический прием, который всегда работает безотказно.

Частые ошибки

Чего делать точно не стоит? Писать романы. Нейросеть имеет ограничение на количество “токенов” (смысловых единиц), которые она может удержать в памяти. Слишком длинный, витиеватый запрос с кучей придаточных предложений просто запутает алгоритм. Он “забудет” начало фразы, пока дочитает до конца. Лучше разбивать описание на короткие, рубленые фразы через запятую. Это надёжно. Потому что проверено. Временем.

Другая крайность — противоречивые требования. Нельзя просить одновременно «minimalism» (минимализм) и «intricate details» (сложные детали). Это вводит машину в ступор. Результат будет кашей. Также стоит избегать слишком абстрактных понятий типа «смысл жизни» или «настоящая любовь». Нейросеть мыслит визуальными образами, а не философскими категориями. Для неё любовь — это, скорее всего, сердечки или целующаяся пара, что может выглядеть довольно банально. Конкретика — вот лучший друг промт-инженера.

Тонкости работы с весами

Есть ещё один нюанс, о котором новички часто забывают (или не знают вовсе). Это веса слов. В некоторых нейросетях (например, Midjourney или Stable Diffusion) можно указать, насколько важно то или иное слово в запросе. Обычно это делается через двоеточие или скобки. Если написать «cat::2 dog::1», то кота на изображении будет визуально больше или он будет заметнее, чем собака. Это позволяет управлять композицией, не переписывая весь текст.

Бывает так, что какой-то цвет начинает «заливать» всю картинку. Например, вы попросили «девушку в красном платье», и вдруг всё лицо и фон тоже стали красноватыми. Это называется «color bleeding» (протекание цвета). В этом случае помогает уменьшение веса цвета или перестановка слов. Чем ближе слово к началу промта, тем оно весомее для алгоритма. Поэтому самые важные объекты всегда ставим вперед. А вот второстепенные детали, вроде фона или мелких аксессуаров, можно смело отправлять в конец очереди.

Эксперименты и итерации

Получится ли идеальная картинка с первого раза? Вряд ли. Генерация изображений — это процесс перебора. Часто приходится менять одно слово, переставлять теги местами, играть с настройками. Это своего рода рыбалка. Вы закидываете удочку (промт) и смотрите, что клюнет. Иногда попадается мусор. Иногда — мелкая рыбёшка. Но если проявить терпение и немного подкорректировать наживку, можно выловить настоящий трофей.

Не бойтесь заимствовать. В сети полно ресурсов, где люди выкладывают свои работы вместе с промтами. Изучать чужие запросы — это настоящий кладезь знаний. Вы увидите, какие сочетания слов дают интересные эффекты, какие художники сейчас в тренде у алгоритмов, какие технические параметры используют профи. Копируйте, меняйте, адаптируйте под свои задачи. Это самый быстрый путь к обучению. Ведь даже самый опытный мастер когда-то начинал с простого копирования чужих приёмов, прежде чем выработать свой уникальный стиль.

Путь к совершенству

В конечном итоге, написание промтов — это диалог. Диалог между живым человеческим воображением и холодной логикой машины. И, как в любом разговоре, здесь важно слышать собеседника. Если нейросеть упорно отказывается рисовать руки правильно, может, стоит спрятать их в карманы? Или надеть на персонажа перчатки? Гибкость мышления здесь важнее, чем знание тысячи тегов наизусть.

Пробуйте смешивать несочетаемое. Киберпанк и средневековье? Легко. Акварель и мраморная скульптура? Почему бы и нет. Именно на стыке жанров рождаются самые интересные, самобытные образы. Не бойтесь ошибаться. Каждая неудачная генерация — это лишь шаг к пониманию того, как работает этот сложный цифровой мозг. Ваша идеальная картинка уже ждет, когда вы подберете к ней правильные слова. Дерзайте, и пусть ваша галерея пополнится настоящими шедеврами цифрового искусства!