Промты для stable (с примерами готовых промтов)

Знакома ли вам ситуация, когда вместо ожидаемого шедевра цифрового искусства нейросеть выдаёт нечто с шестью пальцами и глазами, смотрящими в разные стороны? Разочарование от первого общения с генеративными моделями — чувство, через которое проходят, пожалуй, абсолютно все новички. Ведь кажется, что достаточно ввести пару слов, и магия свершится сама собой. Однако за глянцевыми картинками, которые заполонили интернет, скрывается не просто удача, а кропотливый труд и знание особого синтаксиса. Это своеобразный диалог с машиной, где каждое слово имеет вес, а порядок слагаемых подчас меняет сумму до неузнаваемости. Но чтобы приручить этот цифровой разум и заставить его рисовать именно то, что рождается в вашей фантазии, стоит разобраться в самой механике составления запросов.

Как работает алгоритм?

Сложно ли понять логику машины? На самом деле, не очень. Stable Diffusion не видит образы так, как видим их мы. Для неё ваш запрос — это набор математических векторов, которые нужно извлечь из случайного шума. Процесс этот довольно сложный, но увлекательный. Представьте себе старый телевизор, показывающий помехи («белый шум»). Нейросеть начинает с такого же шума и шаг за шагом «очищает» его, пытаясь разглядеть очертания, заданные вашими словами. И вот здесь вступает в игру точность формулировок. Чем конкретнее вы опишете задачу, тем меньше у алгоритма останется пространства для «галлюцинаций». Ведь если попросить просто «кот», вы можете получить животное, рисунок, игрушку или даже экскаватор марки CAT. А вот «пушистый рыжий кот, сидящий на подоконнике при лунном свете» — это уже чёткая инструкция, сужающая поле поиска в миллионы раз.

Структура правильного промта

С чего начинается создание качественного запроса? Разумеется, с объекта. Это фундамент, на котором будет строиться всё здание композиции. Однако одного существительного нейросети мало. Ей нужен контекст. Поэтому сразу за объектом обычно следует описание среды. Где находится персонаж? Что его окружает? Далее в дело вступают стилистические маркеры. Вы хотите фотографию, масло, акварель или 3D-рендер? Без этого уточнения Stable Diffusion выберет стиль случайно, и результат вас вряд ли обрадует. Завершает эту словесную конструкцию блок технических уточнений — так называемые модификаторы качества. К ним относятся слова вроде «4k», «high detailed», «masterpiece». Именно они «полируют» картинку, добавляя резкости и деталей. Стоит отметить, что порядок слов тоже играет роль: то, что стоит в начале, для нейросети важнее того, что написано в хвосте.

Фотореализм

Этот жанр по праву считается самым востребованным среди пользователей. Грёзят о неотличимых от реальности портретах многие, но получают их единицы. Весь секрет кроется в правильной имитации настроек камеры. Чтобы добиться эффекта настоящей фотографии, стоит использовать такие токены, как «raw photo», «dslr», «film grain» или указывать конкретные модели камер, например, «Fujifilm XT3» или «Canon 5d». Это же правило касается и объективов: добавление «85mm lens» сделает красивое размытие фона (боке), характерное для портретной съёмки. Освещение здесь тоже играет солирующую партию. Слова «soft lighting», «volumetric fog» или «cinematic lighting» способны превратить плоскую картинку в глубокий, атмосферный кадр.

Пример добротного промта для портрета:

raw photo, close up portrait of a young woman with freckles, messy hair, looking at camera, soft natural lighting, window reflection in eyes, highly detailed skin texture, 8k uhd, dslr, soft focus, bokeh

Здесь каждое слово работает на результат. «Messy hair» добавляет живости, а «window reflection» — тот самый нюанс, который обманывает глаз, заставляя верить в реальность происходящего.

Художественные стили и арт

А если душа просит не реализма, а сказки? Здесь в игру вступают имена художников и названия техник. Это настоящий кладезь возможностей для экспериментов. Довольно часто пользователи используют имена Грега Рутковски (Greg Rutkowski) или Альфонса Мухи (Alphonse Mucha). Первый добавляет эпичности и фэнтезийной мрачности, второй — изысканных узоров и романтики модерна. Но спектр имён не ограничивается этими гигантами. Можно смешивать стили, получая совершенно неожиданные результаты. Попробуйте скомбинировать «cyberpunk» и «oil painting». Звучит дико? Но на практике это даёт потрясающий эффект: неоновые города, написанные широкими мазками масла. Также не стоит забывать про цифровые платформы. Токен «trending on ArtStation» уже стал классикой — он подтягивает качество изображения до уровня лучших работ с этого сайта.

Пример запроса для фэнтези-пейзажа:

majestic fantasy castle on a cliff, dragon flying in the sky, epic clouds, sunset, intricate details, oil painting style, by Greg Rutkowski and Thomas Kinkade, fantasy art, volumetric light, 8k resolution

Обратите внимание на смешение авторов. Рутковски даёт структуру и драму, а Кинкейд — мягкий, «ламповый» свет. Вместе они творят чудеса.

Что такое Negative Prompt?

Можно ли создать шедевр без ошибок? Вряд ли. Нейросети свойственно ошибаться: рисовать три ноги, деформировать лица или добавлять лишние объекты. Спасательный круг в этой ситуации — это Negative Prompt (отрицательный запрос). Сюда мы вписываем всё то, чего категорически не хотим видеть на изображении. Это своеобразный фильтр, отсекающий мусор. Львиная доля брака убирается стандартным набором слов: «ugly», «deformed», «extra limbs», «bad anatomy», «blurry». Однако опытные «промпт-инженеры» идут дальше. Если вы генерируете портрет, в негатив стоит добавить «3d», «cartoon», «sketch», чтобы избежать ухода в мультипликацию. А для пейзажей не лишним будет исключить «text», «watermark», «signature», ведь нейросеть обучалась на картинках из интернета и любит пририсовывать подписи авторов там, где их быть не должно.

Пример универсального негативного промта:

ugly, tiling, poorly drawn hands, poorly drawn feet, poorly drawn face, out of frame, extra limbs, disfigured, deformed, body out of frame, bad anatomy, watermark, signature, cut off, low contrast, underexposed, overexposed, bad art, beginner, amateur, distorted face

Вес токенов и скобки

Иногда бывает так, что нейросеть упорно игнорирует важное слово в запросе. Или, наоборот, делает на нём слишком сильный акцент. Как быть? Регулировать вес слов. В интерфейсах вроде Automatic1111 для этого используются скобки. Если вы возьмёте слово в круглые скобки — (word) — его значимость вырастет в 1.1 раза. Двойные скобки — ((word)) — увеличат вес ещё больше. Можно указывать коэффициент и вручную: (word:1.5). Это мощный инструмент. Например, если в промте есть слово «улыбка», но персонаж всё равно грустный, напишите (smile:1.3), и результат изменится мгновенно. Но не стоит перебарщивать. Слишком высокие значения (больше 1.6-1.8) могут «сломать» картинку, превратив её в цветовой шум или абстракцию. С другой стороны, квадратные скобки [word] уменьшают вес токена, делая его влияние едва заметным. Это удобно, когда нужно добавить лишь лёгкий намёк на цвет или стиль.

Научная фантастика и киберпанк

Этот жанр требует особого подхода к освещению и материалам. Здесь царят неон, хром и дождь. Чтобы получить добротный киберпанк-арт, нужно насытить промт техническими терминами. Слова «octane render» и «unreal engine 5» сразу дают понять сети, что нам нужна 3D-графика высочайшего уровня с сложным просчётом света. Дополняет образ упоминание специфических цветов: «cyan and magenta lighting», «neon palette». Антураж создают детали: «wires», «cyborg parts», «futuristic city», «raining street».

Готовый промт для персонажа в стиле Sci-Fi:

full body shot of a female cyborg warrior, intricate mechanical parts, glowing blue eyes, futuristic armor, standing on a neon rainy street at night, cyberpunk city background, depth of field, cinematic lighting, hyperrealistic, ray tracing, octane render, 8k, unreal engine 5 style

Здесь мы видим классический пример «инструментального» построения: сначала объект, потом детали брони, затем окружение и, наконец, технические движки для рендера.

Аниме-стилистика

Казалось бы, аниме рисовать проще всего. Но и тут есть свои подводные камни. Главное — указать правильную модель (checkpoint), ведь стандартная Stable Diffusion тяготеет к реализму. Но если модель выбрана верно, промт должен содержать специфические теги. «Anime style», «studio ghibli» или «makoto shinkai» зададут общее настроение. Очень популярным токеном является «waifu» (как бы странно это ни звучало для обывателя, нейросеть отлично понимает этот термин). Для повышения качества часто используют теги с имиджбордов: «masterpiece», «best quality», «highly detailed». А вот от слов «photo» и «realistic» в данном случае лучше отказаться или отправить их в негативный промт.

Пример для создания милой аниме-сцены:

anime girl with long pink hair, sitting in a cozy cafe, drinking coffee, rain outside the window, lo-fi aesthetic, soft pastel colors, detailed eyes, anime art style, by Makoto Shinkai, high quality, 4k

Имя Макото Синкая здесь гарантирует проработку фонов и красивое, чуть меланхоличное освещение.

Нужны ли длинные промты?

Бытует мнение, что чем длиннее запрос, тем лучше результат. Так ли это? Отчасти да, но с оговорками. Огромные «полотна» текста, скопированные из интернета, часто содержат мусорные слова, которые не вносят лепту в генерацию, а лишь запутывают алгоритм. Лучше написать 10 точных слов, чем 50 случайных. Скрупулезный подбор эпитетов всегда выигрывает у бессмысленного нагромождения тегов. К тому же, у нейросети есть лимит на количество токенов (обычно 75, хотя современные интерфейсы позволяют его обходить), и всё, что находится за пределами «внимания», просто игнорируется или смешивается в кашу. Поэтому лаконичность в сочетании с точностью — вот золотой стандарт.

Влияние разрешения на композицию

О чем часто забывают новички? О размере изображения. А ведь разрешение напрямую влияет на то, что будет на картинке. Дело в том, что Stable Diffusion (версии 1.5) обучалась на картинках 512×512 пикселей. Если вы выставите, скажем, 512×1024 (вертикальный формат), нейросеть может попытаться впихнуть в это пространство два тела или продублировать голову. Это известная проблема «двойников». Решается она либо генерацией в стандартном разрешении с последующим апскейлом (увеличением), либо использованием специальных фиксов (Highres. fix). С новыми версиями вроде SDXL дело обстоит проще, они «переваривают» и 1024×1024, но помнить о зависимости композиции от пропорций холста всё-таки стоит. Широкий формат (16:9) провоцирует появление пейзажей, а вертикальный тяготеет к портретам.

Типичные ошибки

Натыкаешься на них постоянно. Первая и главная — противоречивые запросы. Нельзя просить «sunny day» и «night» одновременно, надеясь на чудо. Нейросеть либо выберет одно, либо смешает их в серо-бурую массу. Вторая ошибка — перегрузка весами. Если выделить каждое слово скобками ((word)), то эффект усиления исчезнет, ведь если важно всё, то не важно ничего. Третья — отсутствие стиля. Запрос «девушка в парке» выдаст вам среднестатистическую, скучную картинку. Без указания «oil painting» или «photo» вы отдаёте результат на волю случая. Ну и, конечно же, игнорирование негативного промта. Без него пальцы будут путаться, а глаза косить.

Архитектурные промты

Дизайнеры и архитекторы тоже нашли в Stable Diffusion надёжного помощника. Чтобы сгенерировать современный дом, стоит использовать термины из профессионального словаря. «Modernist architecture», «bauhaus», «brutalism» или «glass facade» зададут верный тон. Важно указать и время суток, и окружение. «Forest around» или «cliff edge» помогут вписать здание в ландшафт. Для интерьеров отлично работают слова «interior design», «cozy atmosphere», «minimalism».

Пример архитектурного запроса:

luxurious modern villa in the forest, glass and concrete facade, brutalism mixed with nature, warm interior lighting, night shot, architectural photography, photorealistic, 8k, unreal engine render

Здесь «warm interior lighting» создает уютный контраст с холодным ночным лесом, что делает картинку живой и привлекательной.

Заключение

Путь промпт-инженера — это не зубрёжка формул, а постоянный поиск. Не бойтесь копировать чужие запросы, но всегда старайтесь разобрать их по полочкам, чтобы понять, как они работают. Меняйте слова местами, играйте с весами, смешивайте несовместимое. Иногда одна случайная опечатка может подарить уникальный стиль, который вы будете использовать годами. Экспериментируйте, и пусть ваша видеокарта всегда радует вас быстрыми и качественными генерациями.