Как составить промт для изображения (с примерами готовых промтов)

Создание изображений через нейросети для многих новичков выглядит как лотерея, где вместо ожидаемого шедевра на экране появляется нечто с тремя ногами или пугающе деформированными лицами. Кажется, что машина просто издевается, игнорируя, казалось бы, простые команды. Но проблема зачастую кроется не в «глупости» искусственного интеллекта, а в нашем неумении говорить на его языке. Ведь алгоритм не обладает интуицией, он не умеет читать между строк и воспринимает каждое слово буквально, математически точно. Поэтому, чтобы генерации перестали быть тратой кредитов и времени, стоит погрузиться в механику составления запросов, превратив хаотичный набор слов в чёткую инструкцию.

С чего начинается работа?

Любой добротный промт начинается с определения главного объекта. Это фундамент. Если вы просто напишете «девушка», нейросеть выдаёт усреднённый, довольно скучный портрет, основанный на миллионах обучающих картинок. Здесь нужно включить внутреннего режиссёра. Кто эта девушка? Кибер-самурай, викторианская леди или, быть может, уставший офисный клерк? К слову, детализация субъекта — это львиная доля успеха. Добавьте описание одежды, цвета волос, эмоций. Например, вместо сухого «кот» лучше написать «пушистый рыжий мейн-кун с зелёными глазами, смотрящий вдаль». И вот уже бездушный алгоритм получает конкретные зацепки, за которые можно ухватиться при построении композиции.

Окружение и контекст

Следующий шаг, про который часто забывают, — это сцена. Где происходит действие? Объект, висящий в белой пустоте, редко выглядит впечатляюще. Если это лес, то какой он? Утренний, туманный, залитый солнцем или мрачный, как в сказках братьев Гримм? Антураж задаёт настроение. Можно поместить персонажа в «футуристический мегаполис с неоновыми вывесками» или в «уютную библиотеку с пыльными фолиантами». Самое интересное, что нейросети отлично понимают такие нюансы. Даже простое уточнение «на заднем плане» (background) творит чудеса, отделяя героя от фона и создавая глубину, которой так часто не хватает любительским генерациям.

Стилизация и художественные референсы

Тут начинается настоящая магия. Ведь один и тот же сюжет можно подать совершенно по-разному. Хотите, чтобы картинка выглядела как кадр из дорогого блокбастера? Используйте маркеры вроде «cinematic lighting», «photorealistic», «8k», «Unreal Engine 5». А может, душа тяготеет к классической живописи? Тогда стоит призвать на помощь имена великих мастеров. Упоминание «by Vincent van Gogh» мгновенно закрутит небо в знакомые спирали, а «by Alphonse Mucha» добавит изображению изысканный модерн и сложные узоры. Впрочем, не стоит ограничиваться только художниками. Стили вроде «cyberpunk», «steampunk», «synthwave» или «watercolor» (акварель) работают безотказно. Это своего рода фильтры, через которые нейросеть пропускает ваш запрос.

Технические параметры камеры

Опытные «промт-инженеры» знают, что ИИ прекрасно разбирается в фототехнике. Удивительно, но имитация настроек реальной камеры придаёт изображению тот самый лоск, который отличает профессиональное фото от снимка на телефон. Попробуйте добавить «shot on 35mm lens» для классического угла обзора или «macro lens» для съёмки мельчайших деталей насекомых или капель росы. Значение диафрагмы, скажем, «f/1.8», заставит алгоритм размыть фон, создав красивое боке. А такие слова, как «volumetric lighting» (объёмный свет) или «dramatic lighting», буквально заставляют свет играть на гранях объектов, создавая глубокие тени и яркие блики. Игнорировать этот инструмент — значит лишать себя мощнейшего рычага управления результатом.

Конструкция сложного запроса

Теперь попробуем собрать всё воедино. Структура идеального промта обычно выглядит как слоёный пирог.

Структура: Объект + Действие + Окружение + Стиль + Технические детали.

Допустим, нам нужен портрет старого пирата. Начинаем с базы: «Old tired pirate captain with a grey beard and a scar on his cheek». Добавляем действие и обстановку: «Drinking rum in a dark wooden tavern, candlelight». Теперь шлифуем стилем и качеством: «Hyperrealistic, highly detailed, cinematic lighting, sharp focus, 8k resolution, by Rembrandt». Получившаяся конструкция для машины — это чёткая дорожная карта. Разумеется, порядок слов имеет значение. То, что стоит в начале, имеет больший вес. Если вы напишете «Красный», а потом через двадцать слов «синий», то красного в итоговой картинке будет несоизмеримо больше.

Использование весовых коэффициентов

В продвинутых нейросетях, вроде Midjourney, есть возможность управлять важностью каждого слова. Это спасательный круг, когда ИИ упорно игнорирует какую-то деталь. Обычно это делается через двоеточие и цифру. Например, «forest::2 fog::1» скажет системе, что лес в два раза важнее тумана. Но с этим инструментом нужно быть осторожным. Стоит переборщить с цифрами, и картинка может «посыпаться», превратившись в абстрактное месиво. Баланс здесь — вещь тонкая, требующая экспериментов. Также существуют параметры хаоса (—chaos в Midjourney), которые определяют, насколько сильно результат будет отличаться от стандартных паттернов. Высокий хаос нужен для творческого поиска, низкий — для предсказуемого результата.

Отрицательные промты (Negative prompts)

Часто бывает так, что проще объяснить, чего вы НЕ хотите видеть, чем то, что нужно. В Stable Diffusion для этого есть отдельное поле, в Midjourney используется параметр «—no». Это настоящий фильтр от мусора. Стандартный набор для исключения — «ugly, deformed, extra fingers, watermark, blurry, bad anatomy, text, signature». Если генерируете пейзаж и не хотите видеть людей, просто добавьте «no people». Это довольно просто, но избавляет от необходимости часами перебирать неудачные варианты, где у персонажей по шесть пальцев или три руки. Скрупулезный подход к негативному промту экономит массу нервов.

Примеры готовых решений: Портретная съёмка

Перейдём от теории к практике. Допустим, задача — получить реалистичный женский портрет. Запрос может выглядеть так:

«Close-up portrait of a young woman with freckles and messy red hair, natural makeup, soft sunlight hitting her face, standing in a field of flowers, bokeh background, shot on Sony A7R IV, 85mm lens, f/1.8, hyperrealistic texture, 8k».

Разберем по полочкам. Мы задали объект (девушка с веснушками), уточнили причёску (растрепанные рыжие волосы), выставили свет (мягкий солнечный), описали фон (поле, размытие) и добавили технические характеристики камеры для фотореализма. Результат будет максимально живым, далеким от «пластиковой» кожи.

Примеры: Фэнтези и концепт-арт

Если же цель — создать нечто сказочное, лексикон меняется кардинально. Попробуем создать замок.

Промт: «Majestic flying castle floating in the sky among clouds, waterfalls falling from the floating islands, fantasy world, epic scale, magical atmosphere, sunset lighting, purple and gold color palette, highly detailed, digital painting, artstation style, concept art by Greg Rutkowski».

Здесь мы делаем упор на масштаб («epic scale»), атмосферу («magical») и цветовую палитру. Упоминание Artstation и конкретного художника сразу направляет нейросеть в русло качественного цифрового арта, а не любительских рисунков.

Примеры: Абстракция и логотипы

Нейросети отлично справляются и с минимализмом. Для создания логотипа или иконки не нужно писать поэмы.

Промт: «Minimalist vector logo of a fox, flat design, white background, simple lines, geometric shapes, orange and black colors, vector illustration».

Коротко и ясно. Слова «vector», «flat design» и «white background» — это ключевые триггеры, отсекающие всё лишнее. ИИ понимает, что от него не требуется фотореализм или объём, и выдаёт чистую графику, которую потом легко перевести в реальный вектор.

Ошибки, которых лучше избегать

Новички часто грешат тем, что пишут огромные полотна текста, надеясь, что чем больше слов, тем лучше. Это не так. Перегруженный промт запутывает систему. Если в одном предложении встретятся «фотореализм» и «мультяшный стиль», нейросеть выдаст непредсказуемый гибрид, который вряд ли порадует глаз. Также не стоит использовать абстрактные понятия вроде «настоящая любовь» или «смысл жизни». Машина оперирует визуальными образами, а не философией. Лучше описать визуальное проявление чувства — «пара, держащаяся за руки на закате», чем просто писать «любовь».

Конкретика всегда побеждает абстракцию.

Форматы и соотношение сторон

Ещё один важный технический момент — геометрия кадра. По умолчанию многие сети выдают квадрат (1:1). Но для обоев на рабочий стол или кинематографичных сцен это не подходит. В Midjourney за это отвечает параметр «—ar» (aspect ratio). Например, «—ar 16:9» даёт широкий формат, идеальный для пейзажей, а «—ar 9:16» — вертикальный, подходящий для сторис или портретов в полный рост. Забывая об этом, пользователи часто получают обрезанные композиции, где важные детали просто не влезают в кадр. А ведь исправить это на этапе генерации гораздо проще, чем потом дорисовывать несуществующие куски в фотошопе.

Влияние порядка слов и синтаксиса

Интересно, что нейросети чувствительны даже к запятым и точкам, хотя и не в грамматическом смысле. Разделение понятий запятыми помогает алгоритму понять, где заканчивается описание одного объекта и начинается другой. Однако слишком длинные предложения размывают фокус. Лучше использовать рубленые фразы. Это работает. Эффективно. Например, вместо «красивая девушка сидит на старой деревянной скамейке в парке» можно написать: «Beautiful girl, sitting on old wooden bench, park background». Такой «телеграфный» стиль иногда даёт более точные результаты, так как убирает предлоги и союзы, которые для ИИ являются просто шумом.

Эволюция запроса

Процесс создания идеального промта редко бывает линейным. Это всегда итерация. Сначала вы пишете базу. Смотрите результат. Ага, свет слишком темный. Добавляете «bright lighting». Теперь композиция скучная. Добавляете «low angle shot» (съемка с нижнего ракурса). Лицо выглядит искусственным? Вписываете «skin texture, pores». Это похоже на лепку из глины, где вы постепенно добавляете или убираете кусочки, пока фигура не станет идеальной. Не стоит расстраиваться, если с первого раза вышло не то. Даже профессионалы тратят десятки попыток на одно изображение.

Нюансы работы с разными нейросетями

Стоит отметить, что промт, идеально работающий в Midjourney, может выдать посредственный результат в Stable Diffusion или DALL-E. У каждой модели свой «словарь». Midjourney тяготеет к художественности и понимает более поэтичные описания. Stable Diffusion любит точность, теги и технические термины, там часто используется синтаксис со скобками для усиления веса слов — например, (best quality:1.2). Поэтому, копируя чужие промты, всегда учитывайте, для какой именно нейросети они были написаны. Слепое копирование редко приводит к успеху, а вот адаптация под конкретный инструмент — это признак мастерства.

Творческий кризис и где брать вдохновение

Бывает, сидишь перед пустой строкой ввода и совершенно не знаешь, что написать. В голове пустота. В таких случаях спасают специализированные сайты-агрегаторы промтов. Ресурсы вроде Lexica или библиотеки Midjourney — это настоящий кладезь идей. Там можно посмотреть работы других авторов и, что самое важное, увидеть промты, по которым они были созданы. Это не воровство, это обучение. Подсматривая, какие сочетания слов дают эффект влажного асфальта или сияющей брони, вы пополняете свой личный словарный запас «нейроманта». Тем более, что комбинирование удачных кусков из разных запросов часто рождает совершенно уникальные стили.

Зачем нужен «Remix mode»?

В некоторых нейросетях есть функция Remix, позволяющая менять промт, не меняя композицию уже сгенерированного изображения. Это невероятно удобно. Представьте: вы создали идеальную композицию с рыцарем, но хотите поменять его доспехи с золотых на серебряные. Вместо того чтобы генерировать всё с нуля и надеяться на удачу, вы просто включаете Remix и меняете «gold armor» на «silver armor». Композиция останется прежней, изменится только деталь. Этот инструмент экономит часы времени и позволяет доводить картинку до совершенства, не теряя удачного ракурса.

Значимость материалов и текстур

Для достижения максимального реализма или, наоборот, стилизации, критически важно указывать материалы. Слово «wood» (дерево) слишком общее. «Mahogany» (красное дерево), «oak» (дуб) или «rotten wood» (гнилое дерево) дадут совершенно разные текстуры. То же касается тканей: «silk» (шёлк), «velvet» (бархат), «linen» (лён), «leather» (кожа). Нейросеть прекрасно знает, как свет падает на шёлк и как он поглощается бархатом. Указание материала добавляет изображению тактильности. Зритель начинает «чувствовать» картинку. А если добавить прилагательные вроде «dirty», «rusty» (ржавый) или «polished» (полированный), эффект присутствия усилится многократно.

Заключительные штрихи

Составление промтов — это навык, балансирующий на грани программирования и литературы. Здесь нужна логика, чтобы построить структуру, и богатый словарный запас, чтобы наполнить её смыслом. Не бойтесь экспериментировать с безумными сочетаниями, смешивать киберпанк с ренессансом или просить нейросеть нарисовать звук. В конечном счёте, именно самые смелые и нестандартные запросы рождают те изображения, которые заставляют нас замереть в восхищении. Главное — не останавливаться на достигнутом и постоянно пробовать новые модификаторы, стили и подходы. Пусть ваши генерации всегда будут точными, а результаты — превосходят самые смелые ожидания.