Как писать промт для генерации картинок (с примерами готовых промтов)

Почему у одного пользователя нейросеть выдаёт шедевр цифровой живописи, достойный выставки, а у другого — сюрреалистичный кошмар с семью пальцами и глазами на затылке? Казалось бы, инструмент один и тот же, будь то Midjourney или Stable Diffusion, но результаты отличаются кардинально. Многие новички, столкнувшись с первой неудачей, винят алгоритмы в «глупости» или недостаточной обученности. Однако проблема зачастую кроется не в программном коде, а в умении человека формулировать свои мысли на языке, понятном машине. Ведь искусственный интеллект, при всей своей мощи, лишён воображения в человеческом понимании; он оперирует тегами, весами и визуальными паттернами. Но чтобы приручить этого цифрового зверя и заставить его творить чудеса, стоит разобраться в самой логике построения запроса.

Сложно ли понять машину?

На первый взгляд, общение с нейросетью кажется интуитивным. Пишешь «красивая девушка», нажимаешь кнопку — и ждёшь результат. Но здесь и кроется главный подвох. Понятие «красивая» для алгоритма — это абстракция, размытая миллионами картинок из обучающей выборки. Для кого-то это портрет в стиле Ренессанса, а для кого-то — аниме-персонаж. Машина теряется. Она начинает «галлюцинировать», пытаясь угодить всем сразу. Поэтому первое правило — конкретика. Чем точнее вы опишете детали, тем меньше свободы оставите алгоритму для самодеятельности. И тут на сцену выходит структура. Важно понимать, что нейросеть считывает слова не как связный текст, а как набор токенов, где начало предложения имеет больший вес, чем конец. Главный объект всегда должен стоять первым.

Анатомия идеального запроса

Любой добротный промт можно представить как слоёный пирог, где каждый ингредиент отвечает за свой вкусовой оттенок. Основа всего — это субъект. Кто или что изображено на картинке? Это может быть «Astronaut» (астронавт) или «Ginger cat» (рыжий кот). Но одного существительного мало. Далее следует действие или состояние. Что делает наш герой? «Floating in space» (парит в космосе) или «sleeping on a rug» (спит на ковре). Это задаёт динамику. Без глагола или причастия картинка рискует стать статичной и скучной.

Следом идет окружение. Где происходит действие? Описать фон — задача не из лёгких, но она критически важна. Пустота за спиной персонажа часто заполняется нейросетью случайным шумом или артефактами. Поэтому стоит добавить: «inside a futuristic space station» (внутри футуристической космической станции). А вот теперь начинается самое интересное — стилизация и детализация. Именно здесь вы превращаете фотографию в картину маслом или 3D-рендер. Указание медиа (фотография, скетч, 3D-модель) направляет генерацию в нужное русло. Ну и, наконец, технические параметры, которые «полируют» изображение, добавляя ему лоска.

Освещение и камера

Свет творит чудеса. Он может превратить скучную сцену в драматичный кадр из блокбастера. Обыватель часто забывает об этом, довольствуясь настройками по умолчанию. Но профессионалы знают: свет определяет настроение. Один из самых мощных инструментов — «Cinematic lighting» (кинематографичное освещение). Оно добавляет объём и глубину. Если же вы хотите мягкости и романтики, ваш выбор — «Golden hour» (золотой час), имитирующий свет перед закатом. Для более жёстких, киберпанковых сцен отлично подходит «Neon lighting» (неоновое освещение) или «Volumetric lighting» (объёмный свет), создающий эффект лучей в тумане.

Что насчёт ракурса? Здесь тоже есть свои нюансы. Не стоит отдавать выбор точки съёмки на откуп случаю. Фразы вроде «Low angle» (нижний ракурс) делают объект величественным, подавляющим. А «Wide angle» (широкий угол) позволяет показать масштаб сцены. Любителям портретной съёмки пригодится уточнение фокусного расстояния. Указав «85mm lens», вы получите красивое размытие фона (боке) и правильные пропорции лица. А для макросъёмки насекомых или ювелирных изделий незаменим «Macro shot». Кстати, двойные прилагательные вроде «hyper-realistic sharp focus» (гиперреалистичный чёткий фокус) помогают избежать «мыла» на изображении.

Художественные стили: кого звать на помощь?

Иногда проще сослаться на авторитет, чем описывать каждый мазок кисти. Нейросети знают тысячи художников. Упоминание конкретного имени мгновенно меняет антураж генерации. Хотите безумия и сюрреализма? Добавьте «by Salvador Dali». Тяготеете к мрачной эстетике биомеханики? «By H.R. Giger» сделает свое дело. А если нужна сказочная, воздушная атмосфера, то «by Greg Rutkowski» — это практически чит-код в мире Midjourney и Stable Diffusion. Этот современный иллюстратор стал настолько популярен в промт-инжиниринге, что его стиль узнаётся безошибочно.

Впрочем, ограничиваться живописью не обязательно. Можно имитировать стили анимационных студий («Studio Ghibli style» для душевного аниме или «Pixar style» для милых 3D-мультфильмов) и даже конкретные игровые движки. Фраза «Unreal Engine 5 render» даёт понять алгоритму, что вам нужна предельная детализация, чёткость текстур и реалистичный свет, характерный для современных видеоигр. Смешивание стилей — занятие увлекательное, но рискованное. «Picasso painting of a cyberpunk city» может выдать гениальную абстракцию, а может — нечто невразумительное. Тут нужен эксперимент.

Готовые формулы успеха

От теории пора перейти к практике. Ведь лучше один раз увидеть рабочий код, чем сто раз услышать о принципах его построения. Разберем несколько сценариев, которые довольно часто требуются пользователям. Допустим, нам нужен фотореалистичный портрет. Промт может выглядеть так:

«Portrait of a wise old fisherman with a white beard, wearing a yellow raincoat, storm in the background, rain droplets on face, highly detailed skin texture, cinematic lighting, shot on 35mm lens, f/1.8, photorealistic, 8k –ar 9:16».

Здесь мы видим чёткую структуру: субъект (рыбак), детали (борода, плащ), фон (шторм), свет и технические параметры камеры. Формат 9:16 задаёт вертикальную ориентацию, идеальную для смартфонов.

А если душа просит фэнтезийной иллюстрации? Попробуем такой вариант:

«Majestic dragon sleeping on a mountain of gold coins, inside a dark ancient cave, glowing scales, smoke coming from nostrils, intricate details, fantasy art style, oil painting, by Frank Frazetta and Greg Rutkowski, dramatic atmosphere –v 6.0».

В этом случае мы смещаем акцент с реализма на художественность, упоминая масло и конкретных авторов. Результат будет напоминать обложку книги в жанре фэнтези.

Для любителей киберпанка и научной фантастики подойдёт следующий скрипт:

«Cyberpunk street food vendor serving glowing noodles, neon lights reflecting in puddles, rain, futuristic skyscrapers in the background, bustling crowd of robots and humans, purple and cyan color palette, octane render, ray tracing, 4k».

Ключевые слова «octane render» и «ray tracing» — это маркеры для создания того самого «дорогого» 3D-вида, который мы привыкли видеть в современной графике.

Отрицательные промты

А что исключить? Часто нейросеть упорно рисует то, чего вы не просили. Лишние конечности, размытые лица на заднем плане, уродливые подписи или водяные знаки. Для борьбы с этим существует Negative Prompt (негативный промт). Это своего рода спасательный круг, отсекающий мусор. В Stable Diffusion для этого есть отдельное поле, в Midjourney используется параметр «–no».

Стандартный набор «стоп-слов» обычно включает в себя дефекты анатомии. Стоит прописать: «ugly, deformed, disfigured, extra limbs, extra fingers, missing limbs, blurry, low quality, watermark, text, signature». Это очищает генерацию. Если вы рисуете пейзаж и не хотите видеть на нём людей, смело добавляйте «people, humans, crowd» в негативный список. Это особенно полезно при создании концепт-артов локаций, где фигура человека может нарушить масштаб или атмосферу одиночества.

Технические параметры

В каждой нейросети есть свой набор команд, которые управляют «кухней» процесса. В Midjourney, например, львиная доля успеха зависит от правильных «хвостиков» в конце запроса. Параметр «–ar» (aspect ratio) отвечает за соотношение сторон. «–ar 16:9» даст вам кинематографичный широкий кадр, а «–ar 1:1» — классический квадрат. Но есть и более тонкие инструменты.

Параметр «–stylize» (или «–s») регулирует степень художественной свободы нейросети. Значение может варьироваться от 0 до 1000. Низкие значения заставляют алгоритм строго следовать вашему тексту, буквально до буквы. Высокие же дают ему карт-бланш на творчество, что часто приводит к неожиданно красивым, но далёким от изначальной задумки результатам. Ещё один интересный нюанс — параметр «–chaos» (от 0 до 100). Он определяет, насколько разнообразными будут четыре варианта, предложённые вам в начале. Хотите увидеть абсолютно непохожие друг на друга концепции? Ставьте хаос повыше.

Где скрываются ошибки?

Казалось бы, всё просто, однако новички продолжают наступать на одни и те же грабли. Самая распространенная ошибка — многословие. Не стоит писать эссе. Нейросеть «задыхается» от обилия предлогов, союзов и сложных деепричастных оборотов. «I would like to see a picture of a very beautiful cat that is sitting on the chair» — это плохой промт. «Beautiful cat sitting on a chair» — хороший. Машина любит телеграфный стиль. Краткость — не просто сестра таланта, а необходимость.

Другая крайность — противоречивые запросы. Если вы напишете «sunny day» (солнечный день) и «night atmosphere» (ночная атмосфера) в одной строке, алгоритм выдаст кашу. Логика должна присутствовать даже в сюрреализме. Также стоит избегать слишком абстрактных понятий вроде «hope» (надежда) или «success» (успех), если вы не подкрепляете их визуальными образами. Машина не знает, как выглядит надежда. Для неё это просто набор пикселей. Опишите свет в конце туннеля или восход солнца — и она вас поймёт.

Английский язык: барьер или необходимость?

Многие задаются вопросом: обязательно ли писать на английском? Да, безусловно. Большинство передовых моделей обучались на англоязычном датасете. Запросы на русском, конечно, могут быть обработаны через встроенные переводчики, но точность при этом страдает катастрофически. Нюансы теряются, игра слов исчезает. «Лук» может быть понят и как овощ, и как оружие. В английском же «onion» и «bow» — разные слова. Поэтому, даже если знание языка хромает, лучше воспользоваться онлайн-переводчиком (DeepL или Google), чем пытаться достучаться до нейросети на родном языке. Это сэкономит вам кучу нервов и времени.

Вес слов и акценты

Есть ещё одна хитрость, о которой знают не все. Вы можете управлять значимостью конкретных слов в промте. В Midjourney для этого используется двоеточие с цифрой, например, «fog::2». Это говорит системе: «туман здесь в два раза важнее, чем всё остальное». В Stable Diffusion часто используют скобки: «(fog:1.5)». Это позволяет тонко настраивать баланс композиции. Если кот на картинке получается слишком маленьким, а диван — огромным, можно просто повысить «вес» кота. Это ювелирная работа, требующая терпения, но результат того стоит.

Удачи в творческих поисках! Помните, что идеальный промт — это не застывшая догма, а результат постоянных экспериментов. Не бойтесь ошибаться, смешивать несочетаемое и пробовать новые стили. Ведь именно в процессе перебора вариантов часто рождаются настоящие цифровые шедевры, которые украсят ваше портфолио или просто порадуют глаз. Магия нейросетей доступна каждому, нужно лишь подобрать правильные слова.