Промт для генерации фото на русском (с примерами готовых промтов)

Ни одна современная дискуссия о цифровом творчестве не обходится без упоминания нейросетей, которые, словно по мановению волшебной палочки, превращают текст в визуальные шедевры. Ещё пару лет назад этот процесс напоминал закрытый клуб для тех, кто владеет английским языком на уровне носителя, ведь именно на нём обучалась львиная доля моделей. Обыватель часто сталкивался с тем, что переводчик искажал смысл, а машина выдавала совсем не то, о чём мечталось. Грезят о кнопке «сделать красиво» многие, но получают результат единицы. Однако сегодня ситуация изменилась кардинально, и русскоязычный сегмент генеративного искусства переживает настоящий бум, предлагая инструменты, способные понимать «великий и могучий» с полуслова. А начать погружение в этот мир стоит с понимания того, как именно машина «слышит» нашу речь.

Понимают ли нейросети русский язык?

С этим вопросом дело обстоит довольно интересно. Если говорить о гигантах вроде Midjourney, то они, безусловно, «заточены» под английский синтаксис. Когда вы вводите запрос на русском, внутри системы часто происходит автоматический перевод, который порой съедает важные нюансы. Другое дело — отечественные разработки. Сбербанковский Kandinsky или яндексовский Шедеврум изначально обучались на русскоязычных датасетах. Это же касается и мультимодальных версий других нейросетей. И всё же, писать для них нужно уметь. Ведь нейросеть — это не человек, понимающий контекст, а сложный алгоритм, ищущий соответствия между словами и пикселями. Просто написать «красивая девушка» недостаточно. Машина выдаст усреднённый, довольно скучный образ. Задача не из лёгких. Но решаемая. Главное — усвоить базовую логику построения фразы, которая будет понятна кремниевому «мозгу».

Анатомия идеального запроса

С чего начинается качественный промт? Разумеется, с главного объекта. Не стоит прятать суть в конец предложения. Инверсия, столь любимая нами в художественной литературе, здесь может сыграть злую шутку. На первом месте всегда стоит «Кто» или «Что». Далее следует описание действий или состояния. Если кот, то что он делает? Сидит, бежит, спит? К слову, глаголы действия добавляют динамики. Затем мы нанизываем детали, словно бусины на нитку: внешность, одежда, окружение. И только в самом конце — стилистика, освещение и технические параметры. Такая структура позволяет алгоритму правильно расставить приоритеты. Вес первых слов для генератора всегда выше, чем последних. Это, кстати, довольно частая ошибка новичков, которые начинают описание с цвета фона, а потом удивляются, почему главный герой получился размытым пятном.

Важность деталей и описательных прилагательных

Скупость здесь неуместна. Вместо сухого «дом в лесу» стоит попробовать более развёрнутую конструкцию. Например:

«Старый заброшенным дом из тёмного бруса, стоящий в густой чаще хвойного леса, покрытый мхом».

Чувствуете разницу? Нейросеть тоже её почувствует. Прилагательные — это тот самый кладезь информации, который задает настроение. Эпитеты вроде «мрачный», «солнечный», «уютный», «футуристичный» работают как фильтры в фоторедакторе. Тем более, что русский язык богат на двойные прилагательные, которые нейросети, как ни странно, воспринимают весьма благосклонно. Какой-нибудь «изумрудно-зелёный» или «серебристо-серый» цвет будет передан точнее, чем просто «зелёный». Ну и, конечно же, не стоит забывать про эмоциональные маркеры. Слова «радость», «страх», «меланхолия» влияют на мимику персонажей и общую цветовую гамму кадра.

Примеры промтов: Портретная съёмка

Допустим, нам нужен реалистичный портрет. Просто написать «фотография мужчины» — путь в никуда. Результат будет напоминать фото на паспорт. Чтобы получить художественный снимок, придется потрудиться над формулировкой. Хорошим вариантом станет такой запрос:

«Крупный план, портрет пожилого моряка с обветренным лицом и густой седой бородой, взгляд устремлён вдаль, голубые глаза, глубокие морщины, одета в грубый вязаный свитер, мягкий естественный свет, размытый фон с очертаниями моря, высокая детализация кожи, стиль National Geographic, профессиональное фото».

А если хочется чего-то более сказочного? Попробуйте такой вариант:

«Юная эльфийка с длинными серебристыми волосами, украшенными полевыми цветами, стоит в магическом лесу, вокруг летают светящиеся светлячки, мягкое золотистое свечение, загадочная улыбка, эфирное платье из полупрозрачной ткани, стиль фэнтези-арт, цифровая живопись, детальная прорисовка».

Обратите внимание, как мы наслаиваем детали: сначала персонаж, потом окружение, затем свет и стиль. Это работает безотказно.

Примеры промтов: Пейзаж и архитектура

Здесь действуют те же правила, но акцент смещается на композицию и атмосферу. Довольно часто пользователи забывают указать время суток, а ведь от этого зависит вся палитра. Для любителей киберпанка подойдёт следующий запрос:

«Футуристическая Москва 2077 года, неоновые вывески на кириллице, летающие автомобили между небоскрёбами, дождь и мокрый асфальт, отражения огней в лужах, мрачная атмосфера нуар, холодные синие и фиолетовые тона, кинематографичное освещение, гиперреализм, движок Unreal Engine 5».

Упоминание игровых движков — это своего рода «лайфхак». Нейросеть ассоциирует их с передовой графикой и старается подтянуть качество картинки. А вот пример для ценителей пасторали:

«Уютный деревенский домик на берегу тихой реки, раннее утро, густой туман над водой, восход солнца, тёплые лучи пробиваются сквозь листву деревьев, цветущий сад, деревянный забор, стиль масляной живописи, картина в духе Левитана или Шишкина».

Упоминание имён известных художников — мощнейший инструмент. Алгоритм моментально считывает стиль мазков, цветовую гамму и композиционные решения, характерные для мастера.

Стилизация и технические модификаторы

Иногда хочется, чтобы картинка выглядела не как фото, а как рисунок или 3D-модель. Для этого в конце промта (или в отдельном поле, если интерфейс позволяет) прописываются технические теги. Даже при вводе на русском языке многие системы отлично понимают заимствованные термины или их прямые переводы.

«Векторная иллюстрация» даст чистые линии и плоские цвета. «Акварельный скетч» добавит воздушности и потёков краски. «Пиксель-арт» перенесёт нас в эпоху 8-битных игр.

Очень полезно добавлять фразы, уточняющие качество. Например: «высокое разрешение», «4k», «детализированная текстура», «студийный свет». Казалось бы, мелочь. Но на самом деле эти слова отсекают варианты с низким качеством, которые неизбежно присутствуют в базе данных обучения. Без этих уточнений нейросеть может выдать «мыльное» изображение просто потому, что в её «памяти» слово «деревня» может ассоциироваться с любительскими снимками плохого качества. А словосочетание «профессиональное фото» заставляет алгоритм искать референсы среди качественного контента.

Ошибки, которые портят всё

Подводные камни подстерегают на каждом шагу. Самая распространённая ошибка — использование отрицаний. Фразы вроде «без очков», «не старый», «нет бороды» нейросеть часто игнорирует или, что ещё хуже, воспринимает наоборот. Частица «не» для машины — пустой звук. Она видит слово «очки» и радостно рисует их на лице героя. Если вам нужен человек без бороды, пишите «гладко выбритое лицо». Если нужно небо без облаков — пишите «ясное чистое небо». Позитивное формулирование — залог успеха.

Ещё один нюанс — перегруженность запроса противоречивыми понятиями. Нельзя требовать одновременно «яркий солнечный день» и «мрачную готическую атмосферу». Алгоритм сойдет с ума и выдаст нечто среднее и невнятное. Также не стоит злоупотреблять абстрактными понятиями. Слова «смысл жизни», «бесконечность», «истина» машина интерпретирует слишком буквально или хаотично. Лучше заменять их на конкретные визуальные символы. Бесконечность — это звёздное небо или уходящая вдаль дорога. Истина — это книга или свет.

Кандинский, Шедеврум или западные аналоги?

Что же выбрать для генерации на русском? Kandinsky от Сбера показывает удивительные результаты в понимании культурного кода. Если попросить его нарисовать «Бабу Ягу в ступе», он сделает это именно так, как мы привыкли видеть в сказках, а не выдаст странную женщину в ведре, как это может сделать западная модель. Шедеврум от Яндекса также отлично справляется с локальными мемами и реалиями. Он понимает, что такое «хрущёвка» или «берёзовая роща».

Midjourney и Stable Diffusion, безусловно, мощнее технически. Они выдают более детализированную картинку. Но для работы с ними на русском часто приходится использовать «костыли» в виде переводчиков, что убивает часть творческого замысла. Однако, многие современные интерфейсы Stable Diffusion уже имеют встроенные модули перевода, что облегчает жизнь. И всё же, для старта и быстрых экспериментов отечественные сервисы подходят идеально. Они бесплатны, доступны и не требуют танцев с бубном вокруг VPN.

Свет и камера: как управлять атмосферой

Огромное значение имеет описание света. Это тот самый инструмент, который превращает плоскую картинку в объемную. Фраза «кинематографичное освещение» творит чудеса. Но можно быть и конкретнее.

«Объёмный свет» (или volumeric lighting) добавит в воздух пылинки и лучи. «Контровой свет» создаст красивый силуэт и ореол вокруг объекта. «Золотой час» (время перед закатом) окрасит все в тёплые, приятные глазу тона. «Неоновый свет» незаменим для киберпанка.

Не скупитесь на описание ракурса. «Вид сверху» (drone view), «вид от первого лица», «широкий угол» — всё это кардинально меняет восприятие. Если не указать ракурс, нейросеть чаще всего выберет стандартный план на уровне глаз, что довольно быстро надоедает. Экспериментируйте с «рыбьим глазом» или макросъёмкой. Макросъёмка капли росы на листке или радужки глаза выглядит всегда впечатляюще.

Как довести результат до идеала?

Редко когда первый же сгенерированный вариант оказывается идеальным. Обычно это процесс перебора. Итерации. Получили картинку, посмотрели, чего не хватает, добавили уточнение в промт.

Если лицо персонажа вышло кривым (а это бич всех нейросетей), попробуйте добавить слова «симетричное лицо», «правильные черты». Если слишком много лишних деталей — упрощайте запрос. К слову, краткость — не всегда сестра таланта в промт-инжиниринге, но и «Войну и мир» в поле ввода копировать не стоит. Оптимальная длина промта — 3-5 предложений. Этого достаточно, чтобы описать суть, но не запутать алгоритм.

Нужно отметить, что в некоторых нейросетях есть поле «Negative Prompt» (Отрицательный промт). Туда на русском можно вписать то, что вы категорически не хотите видеть: «уродство», «лишние пальцы», «размытость», «водяные знаки», «текст», «две головы». Это работает гораздо эффективнее, чем попытки вписать «без…» в основной запрос.

Творчество без границ

В конечном счёте, создание промтов — это новый вид литературного творчества. Здесь нет жёстких правил, за нарушение которых вас оштрафуют. Есть лишь рекомендации, выстраданные тысячами попыток энтузиастов. Русский язык с его богатством синонимов и оттенков позволяет создавать уникальные образы, недоступные сухому техническому английскому. Не бойтесь использовать метафоры. «Глаза, как океаны», «кожа, словно фарфор» — нейросети учатся понимать и это. Главное — практика. Чем больше вы экспериментируете, тем лучше начинаете «чувствовать» машину. И помните: самый лучший промт тот, который рождает в вашей голове идею, а на экране — её достойное воплощение. Удачи в поисках своего уникального стиля!