Написать промт для картинки (с примерами готовых промтов)

В сети представлено множество галерей с невероятными, захватывающими дух изображениями, созданными искусственным интеллектом, и у новичка, глядящего на это великолепие, невольно возникает мысль: «Я тоже так могу, это же просто». Однако первая же попытка сгенерировать шедевр часто заканчиваются разочарованием: вместо эпичного полотна на экране появляется нечто с тремя ногами, пластиковыми лицами или вовсе абстрактная каша, далёкая от задумки. Оказывается, нейросеть — это не телепат, а довольно капризный исполнитель, требующий чётких, структурированных команд. Но чтобы не ошибиться и приручить цифрового художника, стоит разобраться в самой логике общения с машиной, ведь именно от качества текста зависит девяносто процентов визуального успеха.

Анатомия запроса

С чего начинается магия? С понимания того, что промт — это не просто набор слов, а код, который трансформируется в пиксели. Обыватель часто пишет запросы в духе «красивая девушка на фоне заката», надеясь на чудо. Чуда не происходит. Нейросеть, будь то Midjourney или Stable Diffusion, мыслит тегами и образами, которые она «видела» в процессе обучения. Ей нужна конкретика. Структура идеального запроса, как правило, строится по принципу пирамиды. В основании лежит главный объект — кто или что находится в кадре. Это фундамент. Далее следует действие, которое совершает объект, ведь статика редко выглядит выигрышно. Затем мы наслаиваем окружение, детали фона и, наконец, технические параметры и стилистику.

Важно понимать, что порядок слов имеет значение. То, что стоит в начале предложения, имеет для алгоритма больший вес. Поэтому, если вы хотите получить портрет кота-космонавта, начинать нужно именно с «кота-космонавта», а не с описания звёздного неба, на фоне которого он парит. Иначе вы рискуете получить красивый космос с микроскопическим пятнышком где-то в углу. Это правило работает безотказно. К слову, английский язык для большинства топовых моделей остаётся родным. Хотя многие сервисы и понимают русский, точность интерпретации при переводе часто страдает, теряются нюансы. Поэтому стоит сразу привыкать к формулировкам на языке Шекспира.

Детализация и окружение

Достаточно ли просто назвать объект? Вовсе нет. Сухой запрос выдаст усреднённый, скучный результат. Здесь в игру вступают модификаторы. Представьте, что вы режиссёр на съёмочной площадке. Вам нужно выставить свет. Кинематографическое освещение (cinematic lighting) придаст картинке объём и драматизм. Если же хочется мягкости и естественности, выручит утренний свет (morning light) или «золотой час» (golden hour). А вот объёмный свет (volumetric lighting) добавит воздуху плотности, создаст красивые лучи, пробивающиеся сквозь пыль или листву. Свет решает всё. Он может спасти даже скучную композицию или, наоборот, убить отличную задумку плоской заливкой.

Не стоит забывать и о камере. Указание типа объектива или ракурса творит чудеса. Например, съёмка с нижнего ракурса (low angle shot) сделает объект величественным, подавляющим. Взгляд сверху (top view) превратит сцену в игрушечный макет или карту. А если упомянуть конкретную модель камеры или плёнки, скажем, Kodak Portra 400, нейросеть попытается сымитировать характерную зернистость и цветопередачу. Это довольно мощный инструмент управления атмосферой. К тому же, стоит насыщать описание текстурами. Кожа, металл, дерево, шёлк — чем больше тактильных определений вы дадите, тем реалистичнее будет результат. ИИ должен «знать», из чего сделан ваш мир.

Стилистика и художественные приемы

Как выбрать стиль? Здесь поле для экспериментов поистине безгранично. Можно пойти простым путем и указать направление искусства: импрессионизм, сюрреализм, киберпанк или стимпанк. Нейросети отлично разбираются в жанрах. Однако куда интереснее смешивать несмешиваемое. Попробуйте объединить эстетику барокко с футуристическим хай-теком. Результат может удивить своей самобытностью. Львиная доля успешных генераций опирается на имена конкретных художников. Если добавить в промт «by Vincent van Gogh», картинка поплывет характерными завихрениями мазков. А упоминание Грега Рутковски (Greg Rutkowski), которого так любят цифровые художники, гарантирует эпичность, детализацию и то самое «фэнтезийное» освещение.

Но есть и подводные камни. Чрезмерное увлечение именами может превратить работу в банальное подражание. Лучше использовать связку «в стиле» (in style of), комбинируя нескольких авторов. Кроме того, отличным подспорьем служат названия движков рендеринга. Фразы «Unreal Engine 5», «Octane Render» или «Ray Tracing» дают сигналу машине, что вам нужна картинка с высокой детализацией, реалистичными отражениями и современным, «глянцевым» видом. Это работает как кнопка «сделать красиво» для 3D-графики. А для любителей рисованной эстетики подойдут маркеры «concept art», «digital painting» или «vector illustration». Главное — угадать с палитрой и настроением.

Технические настройки

Управляемы ли хаос и пропорции? Безусловно. В той же Midjourney существует целый набор параметров, которые пишутся через двойное тире. Один из самых важных — соотношение сторон (--ar). По умолчанию нейросеть генерирует квадрат, но для пейзажей лучше подойдет широкий формат 16:9, а для портретов — вертикальный 2:3. Это меняет восприятие композиции кардинально. Нельзя не упомянуть и параметр хаоса (--chaos), который определяет, насколько сильно результат будет отличаться от первоначального запроса и друг от друга в рамках одной генерации. Высокий хаос — это лотерея, которая иногда выдает гениальные, неожиданные решения, но чаще — сюрреалистичный бред.

Стоит отметить параметр стилизации (--s). Низкие значения заставят ИИ строго следовать вашему тексту, буквально до буквы. Высокие же дают алгоритму творческую свободу: он начнёт добавлять детали от себя, украшать, усложнять. Это палка о двух концах. С одной стороны, картинка становится богаче, с другой — может уйти далеко от изначальной задумки. А есть ещё и параметр странности (--weird), который отвечает за совсем уж нестандартные, психоделические визуальные решения. Экспериментировать с этими цифрами — занятие увлекательное, хоть и затратное по времени. Но именно так нащупывается свой уникальный почерк.

Чего мы не хотим видеть?

Всегда ли мы описываем только желаемое? Опытные промпт-инженеры знают, что отсекать лишнее так же важно, как и добавлять нужное. Для этого используется негативный промт (negative prompt) или параметр «–no» в Midjourney. Это своего рода скульптурный резец, которым мы убираем все наносное. Чаще всего сюда вписывают дефекты анатомии: «extra fingers» (лишние пальцы), «bad anatomy» (плохая анатомия), «missing limbs» (отсутствующие конечности). Ведь нейросети до сих пор грешат тем, что могут нарисовать руку с семью пальцами или две головы.

Кроме анатомических казусов, в негативный список часто отправляют «blur» (размытие), «watermark» (водяные знаки), «text» (текст) и «signature» (подписи). Дело в том, что обучаясь на миллионах изображений из стоков, ИИ часто думает, что водяной знак — это часть композиции, признак качества. Чтобы избежать этих артефактов, лучше сразу указать машине на их недопустимость. Также можно исключать конкретные цвета, объекты или стили. Например, если вам нужен фотореализм, смело добавляйте в негатив «cartoon», «sketch», «illustration». Это значительно очистит выдачу и приблизит результат к идеалу.

Примеры готовых промтов: разбор полётов

Разумеется, теория без практики мертва. Давайте рассмотрим несколько конкретных сценариев, чтобы понять, как собирается этот конструктор. Допустим, нам нужен гиперреалистичный портрет пожилого человека, на лице которого читается мудрость и история. Запрос мог бы выглядеть так:

Close-up portrait of an old weathered sailor, deep wrinkles, piercing blue eyes looking at horizon, intricate details of skin texture, white beard, cinematic lighting, dramatic atmosphere, shot on 85mm lens, f/1.8, bokeh background, hyperrealistic, 8k –ar 2:3

Обратите внимание на наслоение: мы задали объект (старый моряк), уточнили детали (морщины, голубые глаза, борода), выставили свет и оптику (85mm, боке) и заполировали качеством (8k, гиперреализм). Вертикальный формат подчёркивает портретный жанр.

Другой пример — сказочный пейзаж. Здесь нам важна не столько точность, сколько атмосфера и магия. Промт может быть таким:

Mystical ancient forest, giant glowing mushrooms, bioluminescent plants, small fairy house inside a tree trunk, fog, fireflies, magical atmosphere, fantasy art style, style of Studio Ghibli and Thomas Kinkade, vibrant colors, soft light, volumetric fog, detailed masterpiece –ar 16:9

Тут мы смешали конкретные объекты (грибы, домик) с именами вдохновителей (Гибли, Кинкейд), что сразу задаёт определенный, узнаваемый визуальный код. Широкий формат позволяет взгляду блуждать по деталям этого волшебного мира.

А если мы хотим создать логотип или векторную иллюстрацию? Подход меняется кардинально. Нам не нужны лишние детали и сложный свет. Запрос будет лаконичным:

Minimalist vector logo of a fox head, flat design, simple lines, orange and white colors, white background, vector art, Adobe Illustrator style, no shading, clean lines

Мы специально указываем «no shading» (без теней) и «flat design» (плоский дизайн), чтобы избежать ненужного объёма. ИИ понимает, что от него требуется графичность и простота. Такой результат будет легко перевести в реальный векторный формат для дальнейшей работы.

Где ошибается новичок?

Почему же, даже имея перед глазами примеры, люди получают плохой результат? Самая распространённая ошибка — это противоречивые команды. Нельзя одновременно требовать «минимализм» и «гипердетализацию», «солнечный день» и «ночную атмосферу». Нейросеть войдет в ступор и выдаст нечто среднее, серое и невнятное. Ещё одна проблема — слишком длинные, литературные описания. Фразы вроде «он чувствовал грусть, вспоминая о былых временах» машина не поймёт. Эмоции нужно переводить на язык визуала: «sad expression», «tears», «melancholic atmosphere», «rainy background». Абстракции — враг генерации.

Также часто встречается перегруз ключевыми словами. Когда промт состоит из пятидесяти прилагательных, их вес размывается. Нейросеть просто проигнорирует половину из них. Лучше использовать три-четыре точных, бьющих в цель определения, чем десяток синонимов. И, конечно же, не стоит забывать про грамматику. Хоть ИИ и умён, «казнить нельзя помиловать» без запятой может сыграть злую шутку и в коде. Чёткость формулировок, разделение смысловых блоков запятыми или точками — залог того, что вас поймут правильно.

Улучшение через итерации

Можно ли получить идеал с первого раза? Довольно редко. Генерация изображений — это процесс поиска. Вы пишете промт, смотрите результат, видите, что свет падает не так, а композиция завалена. Вы меняете пару слов, добавляете вес (в Midjourney это делается через двойное двоеточие, например, «fog::2»), снова генерируете. Иногда приходится делать десятки попыток, меняя сиды (зёрна генерации) и параметры. Это нормально. Не стоит опускать руки, если первая картинка выглядит как детский рисунок. Проанализируйте, какое слово могло сбить алгоритм с толку, и уберите его.

Существует даже метод «ремикса», когда вы берете удачную картинку и просите нейросеть сделать вариации на её основе, но с небольшими изменениями в промте. Это позволяет довольно тонко настраивать результат, приближаясь к тому образу, который возник у вас в голове. К тому же, сообщество энтузиастов огромно. Не стесняйтесь подсматривать чужие промты. В этом нет ничего зазорного. Разбирая чужие удачные работы на составляющие, вы учитесь понимать логику машины, пополняете свой словарь эффективных токенов и находите неочевидные связки, которые сам бы не придумал.

В конечном итоге, умение писать промты — это новый вид грамотности, навык, который становится всё более востребованным. Это смесь программирования, искусствоведения и литературы. И пусть сейчас это кажется сложным набором терминов и параметров, практика быстро расставит всё по местам. Главное — не бояться экспериментировать, смешивать стили, ошибаться и пробовать снова. И тогда тот самый цифровой шедевр, который вы так ясно видите в своём воображении, обязательно воплотится на экране. Удачных генераций и вдохновения!