Промт для генерации изображений на русском (с примерами готовых промтов)

Визуализация мыслей, которая раньше была уделом избранных художников с многолетним опытом, сегодня доступна любому владельцу смартфона или мощного ПК. Казалось бы, нажал кнопку — и шедевр готов. Но почему тогда у одних получаются кинематографичные кадры, от которых захватывает дух, а у других — пластиковые лица с лишними пальцами и странной геометрией? Проблема кроется вовсе не в «глупости» алгоритмов, как принято считать. Всё дело в умении общаться с машиной на её языке. Ведь искусственный интеллект — это джинн, который исполняет желания слишком буквально, игнорируя контекст, очевидный для человека. И чтобы этот цифровой джинн не исказил вашу идею до неузнаваемости, стоит погрузиться в искусство промпт-инжиниринга.

Как составить идеальный запрос?

Сложно ли это? На первый взгляд, задача кажется тривиальной. Пишешь то, что хочешь увидеть. Однако здесь и кроется главный подвох. Обыватель часто использует абстрактные понятия, вроде «красивая девушка» или «жуткий лес». Но для нейросети понятие красоты — это математическое среднее из миллиардов картинок, на которых она обучалась. И результат, скорее всего, выйдет усреднённым, скучным, лишённым той самой изюминки.

Структура рабочего промта всегда строится по определённой логике. Сначала идёт главный объект (кто или что?), затем следует описание действия или состояния, после чего наслаиваются детали окружения, и, наконец, технические параметры стиля, освещения и качества. Игнорирование любого из этих этапов — верный путь к получению «каши». Стоит отметить, что порядок слов имеет значение: чем ближе слово к началу запроса, тем больший вес оно имеет для алгоритма.

Русский язык или английский?

Поймёт ли нейросеть «великий и могучий»? Безусловно, если речь идёт об отечественных разработках вроде Kandinsky от Сбера или «Шедеврума» от Яндекса. Эти модели изначально обучались на русскоязычном контенте, поэтому они прекрасно считывают культурный код и понимают сложные обороты. А вот с глобальными лидерами рынка, вроде Midjourney или Stable Diffusion, дело обстоит сложнее. Они, конечно, могут попытаться интерпретировать кириллицу, но результат часто оказывается непредсказуемым. Поэтому для работы с ними лучше использовать английский или онлайн-переводчики.

Тем не менее, отечественные нейросети сделали гигантский скачок вперёд. И сегодня мы сосредоточимся именно на промтах на русском языке, которые отлично подойдут для Kandinsky, «Шедеврума» или ruDALL-E. Это удобно. Ведь не нужно мучиться с подбором английских синонимов, когда можно описать образ привычными словами. Да и нюансы нашего фольклора западным сетям объяснить довольно трудно.

Портретная съёмка: детали решают всё

Хотите получить фотореалистичный портрет? Простого описания внешности будет недостаточно. К слову, именно на лицах нейросети чаще всего «спотыкаются», создавая эффект «зловещей долины». Чтобы этого избежать, нужно нагрузить запрос техническими терминами из мира фотографии.

Рассмотрим конкретный пример. Допустим, нам нужен портрет пожилого моряка. Плохой запрос звучал бы так: «Старый моряк с бородой». Результат будет посредственным. А вот добротный, проработанный промт выглядит иначе:

Крупный план, гиперреалистичный портрет старого сурового моряка с густой седой бородой, глубокие морщины, выветренная кожа, пронзительный взгляд голубых глаз, на голове вязаная шапка, фоном штормовое море, мрачное освещение, кинематографичный свет, высокая детализация, 8k, стиль фотографии National Geographic.

Заметьте, как здесь расставлены акценты. Сначала мы задали объект и его характерные черты (морщины, борода), затем погрузили его в контекст (штормовое море), и, наконец, «отшлифовали» картинку требованиями к качеству (8k, кинематографичный свет). Кстати, упоминание конкретных стилей или изданий (как National Geographic) творит чудеса, задавая нейросети правильный вектор цветокоррекции и композиции.

Архитектура и интерьеры

С созданием помещений и зданий всё обстоит несколько иначе. Здесь на первый план выходит геометрия и освещение. Ошибка многих новичков — перегружать сцену мелкими предметами, из-за чего нейросеть начинает путаться в масштабах. Лучше сосредоточиться на стиле и атмосфере.

Представим, что мы проектируем гостиную мечты. Попробуйте такой вариант:

Уютная гостиная в стиле скандинавский минимализм, большие панорамные окна в пол, за окном заснеженный лес, внутри горящий камин, мягкий диван с пледом крупной вязки, тёплый вечерний свет, мягкие тени, фотореализм, дизайн интерьера, рендер Corona, высокое разрешение.

Фраза «рендер Corona» или «Unreal Engine 5» — это своего рода чит-код. Эти движки славятся своей работой со светом, и нейросеть, видя эти слова, пытается имитировать именно такое, «дорогое» и объёмное освещение. Ну и, конечно же, уточнение времени суток (тёплый вечерний свет) кардинально меняет настроение кадра. Без него вы рискуете получить скучное «больничное» освещение.

Фэнтези и сюрреализм

Здесь фантазия может разгуляться по полной. Однако парадокс в том, что чем фантастичнее запрос, тем сложнее удержать композицию в рамках здравого смысла. Чтобы избежать превращения картинки в абстрактное месиво, используйте «якоря» — понятные объекты, которые помогут выстроить перспективу.

Вот пример промта для эпического фэнтези:

Величественный летающий замок, парящий среди облаков, водопады стекают с краёв острова в бездну, золотые шпили башен, вокруг летают драконы, магическое фиолетовое свечение, закатное солнце, эпическая атмосфера, высокая детализация, концепт-арт в стиле World of Warcraft, стиль Грега Рутковски.

Имя художника — это мощнейший инструмент. Грег Рутковски, например, стал настоящей легендой в мире ИИ-генерации благодаря своему узнаваемому стилю. Добавляя имена классиков (Айвазовский, Ван Гог, Дали) или современных концепт-артистов, вы заимствуете их палитру и манеру мазка. Это же правило касается и стилизации под материалы: «сделано из жидкого металла», «оригами из бумаги», «вязаная игрушка».

Стиль киберпанк и футуризм

Этот жанр требует особого внимания к деталям и цвету. Неон, дождь, отражения — вот три кита, на которых стоит киберпанк. Но не стоит забывать и про грязь. Стерильное будущее выглядит ненатурально.

Попробуйте сгенерировать такой образ:

Девушка-киборг стоит на крыше небоскрёба, ночной неоновый город будущего, дождь, мокрый асфальт с отражениями вывесок, хромированные детали тела, светящиеся импланты, розовая и голубая подсветка, стиль Blade Runner, киберпанк, детальная прорисовка, объёмный свет, трассировка лучей.

Слова «трассировка лучей» (ray tracing) и «объёмный свет» (volumetric lighting) заставляют нейросеть тщательно прорабатывать блики и тени, делая картинку объёмной, а не плоской. А упоминание культового фильма «Blade Runner» сразу задаёт нужную мрачную, но стильную цветовую гамму.

Чего делать не стоит?

Существует ряд ошибок, которые сводят на нет все усилия. Львиная доля проблем возникает из-за использования отрицаний. Нейросети очень плохо понимают частицу «не». Если вы напишете «не размыто», джинн, скорее всего, услышит слово «размыто» и сделает именно так. Вместо этого используйте утвердительные антонимы: «чёткий фокус», «резкое изображение».

Ещё один подводный камень — слишком длинные предложения со сложным синтаксисом. «Девушка, которая стоит около дома, который построил Джек» — такая конструкция запутает алгоритм. Лучше дробить. «Девушка стоит у дома. Дом старый. Построен Джеком». Чем проще и рубленее фразы, тем точнее результат.

Также не стоит перебарщивать с количеством объектов. Если вы попросите нарисовать «битву пяти воинств с тысячей орков и эльфов», вы получите кашу из пикселей. Современные модели пока не способны качественно отрисовать сцены с сотней действующих лиц. Лучше сфокусироваться на группе из 2-3 персонажей на переднем плане.

Гастрономическая фотография

Еда — популярнейшая тема для генераций. Но чтобы блюдо выглядело аппетитно, а не как пластиковый муляж, нужны правильные прилагательные.

Работающий вариант:

Сочный бургер на деревянной доске, расплавленный сыр стекает по котлете, капли конденсата на стакане колы рядом, тёмный фон, профессиональное студийное освещение, макросъёмка, высокая детализация текстуры еды, пар поднимается от котлеты, фуд-фотография, аппетитно.

Здесь ключевую роль играют слова «текстура», «сочный», «расплавленный». Они дают сигнал ИИ прорисовать микродетали, которые и вызывают аппетит. А «макросъёмка» размывает задний план, фокусируя внимание зрителя на главном.

Технические модификаторы: словарь промпт-инженера

Чтобы ваши запросы работали безотказно, стоит запомнить набор универсальных слов-усилителей. Их можно добавлять практически в конец любого промта.

Во-первых, это параметры качества: «4k», «8k», «высокое разрешение» (high resolution), «детализация» (highly detailed). Они не увеличивают физический размер картинки, но заставляют нейросеть добавлять больше мелких штрихов.

Во-вторых, параметры освещения: «кинематографичный свет» (cinematic lighting), «мягкий свет» (soft light), «драматичное освещение» (dramatic lighting), «студийный свет» (studio lighting). Свет — это душа фотографии.

В-третьих, параметры камеры: «широкий угол» (wide angle) для пейзажей, «телеобъектив» (telephoto lens) для портретов, «макро» (macro) для мелких объектов, «эффект боке» (bokeh) для красивого размытия фона.

Ну и, наконец, стилистические маркеры: «масло» (oil painting), «акварель» (watercolor), «карандашный набросок» (pencil sketch), «цифровая живопись» (digital art), «3D рендер» (3D render).

Логотипы и векторная графика

Нейросети умеют не только рисовать картины, но и помогать дизайнерам. Правда, здесь нужен особый подход. Фотореализм тут будет лишним.

Пример промта для логотипа:

Минималистичный логотип для кофейни, изображение кофейного зерна в форме сердца, векторная графика, плоский стиль (flat design), белый фон, чёрный и коричневый цвета, простота, чёткие линии, без теней, современный стиль.

Слова «векторная графика», «белый фон» и «плоский стиль» критически важны. Иначе нейросеть попытается нарисовать реальное зерно кофе, которое невозможно будет использовать как логотип. А белый фон потом легко удалить в фотошопе.

И напоследок о вдохновении

Не стоит бояться экспериментировать. Иногда самые безумные сочетания слов дают гениальный результат. Попробуйте смешать несовместимое: «Кот из спагетти в стиле киберпанк» или «Древнерусская изба на Марсе». Нейросеть не осудит вас за странность. Наоборот, именно в таких нестандартных запросах часто рождаются уникальные образы, которые невозможно придумать, следуя строгим правилам.

Главное — практика. С каждым новым запросом вы будете лучше чувствовать, как именно машина интерпретирует ваши слова. Это своего рода диалог, где вы учитесь понимать друг друга. И помните, что даже самый подробный гайд — это лишь карта, а маршрут вы прокладываете сами. Ваша галерея скоро пополнится работами, которые будут вызывать неподдельное восхищение. Удачи в творческих поисках!