Глядя на завораживающие работы цифровых художников, сложно поверить, что за этим визуальным великолепием стоит не кисть и не многолетний опыт академического рисования, а сухая строка кода. Нейросети совершили настоящую революцию, превратив создание изображений из элитарного навыка в доступное развлечение. Однако эйфория от первых попыток довольно часто сменяется разочарованием: вместо шедевра на экране появляется нечто с тремя ногами или размытыми лицами. И тут обыватель понимает, что общение с искусственным интеллектом — это не магия, а скорее программирование на естественном языке. Но чтобы не ошибиться и получить результат, от которого захватывает дух, нужно освоить особое искусство — написание промтов.
Что такое промт?
На первый взгляд, всё кажется предельно простым. Вы пишете текст, а машина рисует. Но на самом деле Stable Diffusion — это не телепат, а скорее очень исполнительный, но невероятно буквальный джинн. Промт — это текстовая инструкция, набор ключевых слов и параметров, которые направляют нейросеть в процессе денойзинга (превращения шума в картинку). Сложно ли составить запрос? Технически — нет. Сложно составить именно хороший запрос. Ведь нейросеть обучалась на миллиардах картинок с подписями, и чтобы получить качественный результат, нужно говорить с ней на её языке, используя понятные ей токены. Главное — помнить, что порядок слов имеет значение. То, что стоит в начале, для алгоритма важнее того, что плетётся в конце.
Структура запроса
Из чего же состоит добротный промт? Фундаментом всегда выступает объект или субъект. Это то, что мы хотим видеть в центре композиции. Будь то «девушка в киберпанк-костюме» или «старинный замок на скале». Сразу за объектом обычно следует описание действия или окружения. Где находится герой? Что он делает? Далее стоит указать художественный носитель. Будет ли это масляная живопись, карандашный набросок, 3D-рендер или фотография? Без этого уточнения Stable Diffusion выдаст усреднённый результат, который вряд ли порадует глаз. Ну и, наконец, замыкают шествие модификаторы стиля, качества и технические параметры.
Фотореализм: как добиться правдоподобия?
Мечтают о фотореализме многие, но получают его единицы. Секрет кроется в правильном подборе «технических» слов. Для создания портрета, который не отличить от снимка, недостаточно написать photo of a woman. Нужно нагрузить промт деталями, имитирующими реальную съёмку. В ход идёт тяжёлая артиллерия: указание модели камеры, типа плёнки и освещения.
Пример качественного запроса для портрета может выглядеть так. Начинаем с главного: raw photo, hyperrealistic close-up portrait of a young woman with freckles. Это задает базу. Но чтобы картинка ожила, добавляем освещение: natural lighting, soft shadows, cinematic lighting. Придаём объём и текстуру коже: highly detailed skin, skin pores, 8k uhd, dslr. А чтобы закрепить результат, можно добавить конкретные параметры объектива, например 85mm lens. И всё же, даже такой запрос может выдать пластиковое лицо, если не разбавить его именами фотографов или специфическими стилями, но об этом чуть позже.
Стилизация и художественные приёмы
А если душа просит не скучной реальности, а чего-то сказочного? Тут в игру вступают имена художников. Это настоящий лайфхак. Нейросеть прекрасно знает манеру письма великих мастеров и современных концепт-артистов. Стоит добавить в промт art by Alphonse Mucha, и изображение мгновенно обрастёт сложными орнаментами и характерными линиями стиля модерн. А вот имя Greg Rutkowski стало настолько популярным в сообществе, что превратилось в синоним эпичного фэнтези.
Вот пример для создания фэнтезийного пейзажа. Основа: majestic fantasy castle on a floating island. Добавляем атмосферу: clouds, waterfalls, magic glowing runes. И теперь самое вкусное — стиль: oil painting, intricate details, concept art by Greg Rutkowski and Makoto Shinkai. Смешивание стилей разных авторов порой творит чудеса, рождая уникальный визуальный язык. К слову, не стоит забывать и про такие слова, как masterpiece, trending on artstation, vivid colors. Они работают как усилители качества, заставляя нейросеть стараться чуть лучше.
Веса и скобки: управление вниманием
Иногда Stable Diffusion упорно игнорирует важную деталь. Вы пишете «синяя шляпа», а шляпы нет вовсе или она красная. Как же заставить машину слушаться? Для этого существует система весов. Заключая слово в круглые скобки (word), мы увеличиваем его значимость для нейросети. Например, (blue hat:1.2) скажет алгоритму, что этот элемент важнее остальных в 1.2 раза. Квадратные скобки [word], наоборот, снижают влияние токена. Это довольно тонкий инструмент, и с ним не стоит перебарщивать. Слишком большой вес может исказить картинку, превратив её в цветовой шум.
Негативный промт: щит от уродства
Многие новички игнорируют поле Negative Prompt, считая его необязательным. И зря. Ведь именно этот инструмент отсекает всё лишнее. Это своего рода фильтр, через который не проходят мусорные данные. Сюда мы вписываем всё то, чего видеть на картинке категорически не хотим.
Стандартный набор для спасения от кошмаров выглядит внушительно. Начинать стоит с анатомии: bad anatomy, extra fingers, missing limbs, mutated hands, poorly drawn face. Это поможет избежать появления шестипалых рук и глаз на подбородке. Также полезно исключить низкое качество: low quality, worst quality, blurry, pixelated, jpeg artifacts. Ну и, конечно же, стоит застраховаться от водяных знаков и подписей, которые нейросеть иногда норовит вставить, подражая стоковым фото: watermark, signature, text. Без добротного негативного промта получить чистый результат практически невозможно.
Параметры генерации
Текст — это лишь половина дела. Вторая половина — настройки. Одним из важнейших параметров является Steps (шаги). Это количество итераций, за которые нейросеть рисует изображение. Обычно значения от 20 до 30 вполне достаточно для хорошего результата. Меньше — будет «каша», больше — процесс затянется, а качество вряд ли улучшится пропорционально времени.
Ещё есть такая штука, как CFG Scale. Этот ползунок определяет, насколько строго нейросеть будет следовать вашему тексту. Низкие значения (5-7) дают ИИ больше свободы для творчества, высокие (10-15 и выше) заставляют его буквально исполнять каждое слово. Однако при слишком высоких значениях картинка может начать «разваливаться» и покрываться артефактами. Золотая середина обычно находится где-то в районе 7-9. Ну и, наконец, Sampler (сэмплер) — алгоритм, по которому идёт генерация. Их много, но Euler a или DPM++ 2M Karras чаще всего выдают отличные результаты.
Примеры готовых решений: Киберпанк
Популярность этого жанра зашкаливает. Чтобы получить неоновый город будущего, промт может выглядеть следующим образом.
Positive: cyberpunk city street at night, rain, neon lights, reflections in puddles, futuristic cars, towering skyscrapers, highly detailed, photorealistic, 8k, unreal engine 5 render, cinematic composition.
Negative: daylight, sun, rustic, vintage, low resolution, blurry, distorted perspective.
Этот набор токенов гарантирует мрачную, но притягательную атмосферу с обилием деталей. Обратите внимание на упоминание движка unreal engine 5 — этот трюк часто используется для придания картинке «компьютерной» чёткости и современного 3D-лоска.
Примеры готовых решений: Аниме
Любителям японской анимации стоит обратить внимание на специфические модели (чекпоинты), но и промт играет роль.
Positive: anime girl, white hair, blue eyes, school uniform, cherry blossoms falling, sunny day, detailed face, studio ghibli style, makoto shinkai style, vibrant colors, 4k.
Negative: realistic, 3d, photo, ugly, nose, mouth, bad anatomy.
Здесь ключевыми являются имена студий и режиссёров. Они задают не просто стиль рисовки, но и настроение кадра.
Примеры готовых решений: Макросъёмка
Хочется разглядеть каждую росинку? Тогда подход меняется.
Positive: macro photography of a water drop on a green leaf, bokeh, depth of field, sharp focus, morning light, nature, highly detailed, nikon d850.
Negative: illustration, painting, drawing, cartoon, noise, grain.
Токены bokeh и depth of field здесь критически важны. Они создают красивое размытие заднего фона, характерное для макрообъективов.
Типичные ошибки новичков
Самая распространённая оплошность — попытка написать целый роман в строке запроса. Нейросеть теряется в обилии слов и связей. Не стоит писать «красивая девушка сидит на стуле и смотрит в окно, за которым идёт дождь, и она грустит». Лучше разбить это на теги: beautiful girl, sitting on chair, looking out window, rain outside, melancholic expression. Это суше, но для машины понятнее.
Вторая ошибка — противоречие стилей. Если вы просите photorealistic и одновременно oil painting, результат будет непредсказуемым и, скорее всего, странным. Нейросеть попытается скрестить ежа с ужом, и выйдет гибрид, который разочарует. Также не стоит перегружать негативный промт сотнями слов, смысла которых вы не понимаете. Лучше использовать проверенный «джентльменский набор».
Как довести результат до идеала?
С первого раза получить шедевр удается крайне редко. Это нормальный процесс. Обычно приходится генерировать десятки вариантов, меняя одно-два слова, играя с весами или сэмплерами. Этот метод называется итеративным. Получили хорошую композицию, но лицо подкачало? Фиксируйте Seed (зерно генерации) и меняйте только описание лица или используйте функцию Inpaint для перерисовки конкретной области.
Отдельно стоит упомянуть использование функции Hi-Res Fix. Она позволяет генерировать изображение в низком разрешении, а затем сразу же увеличивать его с добавлением деталей. Это спасает от проблемы «многоголовых» персонажей, которая часто возникает при попытке сразу создать картинку нестандартного размера. Да и детализация при таком подходе возрастает в разы.
Этические нюансы и авторское право
Вопрос, конечно, скользкий. Используя имена живых художников в промтах, мы фактически заимствуем их стиль. Бомонд от искусства до сих пор спорит, этично ли это. С одной стороны, это развитие технологий, с другой — обесценивание ручного труда. Однако для личного использования и обучения это мощнейший инструмент. Главное — понимать, что стиль не является объектом авторского права, но уважение к творцам никто не отменял.
Полезные инструменты-помощники
Держать в голове тысячи токенов невозможно. К счастью, существуют сервисы-агрегаторы промтов, такие как Lexica или Civitai. Там можно подсмотреть, как другие пользователи добились того или иного эффекта, и скопировать их настройки. Это не стыдно, это часть обучения. Разбирая чужие успешные запросы, вы быстрее поймёте логику работы нейросети. Также существуют расширения для интерфейсов Stable Diffusion, которые автоматически дописывают стили и улучшают качество промта.
Нужно отметить, что сфера нейроарта развивается с бешеной скоростью. То, что было актуально полгода назад, сегодня может устареть. Но базовые принципы построения промта — объект, стиль, среда, технические параметры — остаются неизменными. Это тот скелет, на который нарастают новые мышцы технологий.
Экспериментируйте, смешивайте несовместимое, ошибайтесь и пробуйте снова. Ведь в этом бесконечном поиске идеального сочетания слов и рождается настоящее цифровое искусство. Пусть каждый ваш запрос становится маленьким открытием, а результат радует глаз и вызывает желание творить дальше. Удачи в генерациях!