Как писать промт для картинки (с примерами готовых промтов)

Создание изображений с помощью нейросетей давно перестало быть уделом избранных гиков и превратилось в повседневный инструмент для дизайнеров, маркетологов и просто любителей прекрасного. Казалось бы, что может быть проще: ввёл пару слов, нажал кнопку — и шедевр готов? Но реальность, к сожалению, часто разбивает эти розовые очки, выдавая вместо эпичного полотна нечто с шестью пальцами и глазами на затылке. Проблема здесь кроется не столько в «глупости» искусственного интеллекта, сколько в неумении человека правильно сформулировать свою мысль на понятном машине языке. Ведь нейросеть — это не телепат, а исполнительный, но довольно буквальный художник, которому требуется чёткая инструкция. А начать стоит с понимания самой логики построения запроса, который в профессиональной среде именуется промтом.

С чего начинается магия?

Базовая структура любого успешного запроса всегда строится вокруг главного объекта. Это фундамент. Без него нейросеть просто не поймёт, что именно ей рисовать, и начнет галлюцинировать, заполняя пустоту случайными образами. Казалось бы, очевидно? Но именно на этом этапе новички совершают львиную долю ошибок. Написать просто «кот» — значит отдать результат на волю случая. А вот «рыжий пушистый кот в очках авиаторах» — это уже конкретика. Главный герой должен быть описан максимально точно, но без лишней воды. Сложно ли это? На первых порах — да, но навык приходит довольно быстро. Важно помнить, что нейросеть считывает слова в начале промта как наиболее приоритетные. Поэтому самое важное мы всегда выносим вперёд.

Детализация и окружение

Сам по себе объект, пусть даже детально описанный, висящий в белой пустоте, выглядит удручающе скучно. Ему нужен контекст. Здесь в игру вступает описание окружения или фона. Где находится ваш герой? В киберпанк-городе, в лесной хижине или, может быть, на поверхности Марса? Стоит отметить, что описание локации задает настроение всему изображению. К слову, не стоит скупиться на атмосферные прилагательные. «Туманный утренний лес» даст совершенно иную картинку, нежели «солнечный летний лес». А если ещё вспомнить про освещение, то результат может измениться до неузнаваемости. Кинематографичный свет, неоновое свечение, мягкий свет из окна — все эти уточнения служат своего рода кистью, которой вы раскрашиваете настроение кадра.

Стилизация изображения

Один из самых мощных инструментов в арсенале промт-инженера — это указание художественного стиля. Нейросети обучены на миллионах картин, фотографий и 3D-рендеров, поэтому они прекрасно понимают, чего вы от них хотите, если использовать правильные термины. Хотите получить фотореализм? Используйте связки вроде photorealistic, hyperrealistic, shot on 35mm lens, 4k, Unreal Engine 5 render. Нужен рисунок? Укажите oil painting, watercolor, sketch, pencil drawing. Можно даже ссылаться на конкретных художников. Фраза in the style of Van Gogh или by Alphonse Mucha творит настоящие чудеса, мгновенно меняя пластику и палитру генерации. И всё же, злоупотреблять именами художников не стоит, если вы стремитесь к уникальному результату; лучше смешивать несколько стилей, создавая нечто новое.

Технические параметры

Для тех, кто хочет копнуть глубже, существуют специальные команды и параметры, которые задают технические характеристики изображения. В самой популярной нейросети Midjourney, например, они пишутся через двойное тире. Самый востребованный параметр — это соотношение сторон. По умолчанию нейросеть выдает квадрат, но для обложки видео или обоев на рабочий стол это не подходит. Добавьте в конец промта —ar 16:9 для горизонтального формата или —ar 9:16 для вертикального (для сторис). Есть и параметр хаоса (—c), отвечающий за то, насколько вариативным будет результат. Высокий хаос даст очень разные картинки, низкий — похожие друг на друга. Разумеется, в разных нейросетях синтаксис может отличаться, но суть остается неизменной: мы управляем геометрией и логикой генерации через код.

Примеры портретных запросов

Перейдём от теории к практике, ведь именно на примерах учиться проще всего. Допустим, нам нужен качественный портрет девушки. Плохой, ленивый промт будет выглядеть так: beautiful girl portrait. Результат будет посредственным и клишированным. А вот как выглядит добротный, проработанный запрос:

Close-up portrait of a young woman with freckles, curly red hair, emerald eyes, soft natural lighting, bokeh background, shot on Canon EOS R5, 85mm lens, hyperrealistic details, f/1.8 —ar 4:5

Обратите внимание на структуру: сначала тип кадра (крупный план), затем детальное описание внешности, потом свет, фон и технические параметры камеры. Такой подход гарантирует, что вы получите именно то, что задумывали, а не усреднённый образ из базы данных.

Генерация пейзажей и архитектуры

С пейзажами дело обстоит немного иначе. Здесь на первый план выходят композиция и атмосфера. Предположим, вы грезите о футуристическом городе. Простой запрос future city даст вам набор штампов. Попробуем усложнить и добавить настроения:

Futuristic cyberpunk city street at night, neon signs, rain, reflections in puddles, flying cars, towering skyscrapers, vivid colors, cinematic atmosphere, highly detailed, octane render, ray tracing —ar 16:9

В данном случае мы нанизываем детали одну за другой: время суток, погода, конкретные объекты (летающие машины), и, конечно же, стиль рендера. Словосочетания octane render и ray tracing — это своего рода маркеры высокого качества для 3D-графики, которые нейросеть прекрасно понимает.

Абстракция и сюрреализм

Иногда хочется создать нечто, чего не существует в реальном мире. Сюрреализм — это жанр, где нейросети чувствуют себя как рыба в воде. Здесь можно дать волю фантазии и сочетать несочетаемое. Пример промта для создания сказочного существа:

Majestic griffin made of crystal and smoke, sitting on a floating island in the sky, magical aura, glowing runes, dreamlike atmosphere, surrealism, fantasy art, intricate details, 8k resolution —ar 3:2

Тут мы используем слова majestic (величественный) и intricate details (сложные детали), чтобы задать тон возвышенности и сложности. Смешивание материалов (кристалл и дым) дает тот самый визуальный «изюм», который цепляет взгляд.

Весовые коэффициенты

В продвинутом промт-инжиниринге существует понятие веса слов. Это способ сказать нейросети, что одно слово важнее другого. Например, в Midjourney это делается через двойное двоеточие и цифру. Если вы пишете cat::2 dog::1, то кошачьих черт в гибриде будет в два раза больше. Это довольно тонкая настройка, которая спасает в ситуациях, когда ИИ упорно игнорирует какую-то часть запроса. Также полезно знать про «негативный промт» (negative prompt) или параметр —no. Это способ исключить из генерации то, чего вы видеть не хотите. Например, —no blur уберет размытие, а —no frame избавит от навязчивых рамок, которые нейросеть иногда любит дорисовывать.

Распространенные ошибки новичков

Самая частая ошибка — это чрезмерная перегруженность запроса абстрактными понятиями. Слова вроде «очень красиво», «потрясающе», «взрывающий мозг» нейросеть понимает плохо, так как они субъективны. Для машины «красиво» — это пустой звук. Лучше заменить их на технические характеристики качества: high quality, masterpiece, sharp focus. Другая крайность — противоречивые команды. Если вы попросите «солнечный день» и «ночное небо» в одном предложении, ИИ, скорее всего, выдаст странную кашу. Логика запроса должна быть последовательной. И, наконец, не стоит писать промт как роман. Нейросеть лучше воспринимает информацию, разделённую запятыми, чем длинные литературные предложения с деепричастными оборотами.

Использование референсов

Мало кто знает, но можно использовать уже готовые изображения как основу для генерации. Это называется Image-to-Image (img2img). Вы скармливаете нейросети картинку и просите сделать «так же, но по-другому». В промте сначала вставляется ссылка на изображение, а затем уже идет текстовое описание. Это спасательный круг, когда нужно сохранить композицию или цветовую гамму, но изменить содержание. Например, можно загрузить свой детский рисунок и попросить превратить его в голливудский постер. Результат часто выглядит впечатляюще, сохраняя при этом исходные контуры. Главное — убедиться, что ссылка прямая и ведет именно на файл картинки (заканчивается на .jpg или .png).

Текстуры и материалы

Для дизайнеров и 3D-моделлеров нейросети стали настоящим кладезем текстур. Чтобы получить качественную текстуру, нужно использовать специфические слова. Пример промта для создания бесшовной текстуры дерева:

Old oak wood texture, seamless pattern, top view, rough surface, realistic details, flat lighting —tile

Параметр —tile (в Midjourney) заставляет нейросеть генерировать паттерн, который можно стыковать без видимых швов. Это экономит часы работы в фотошопе. Слова top view (вид сверху) и flat lighting (плоский свет) критически важны, чтобы избежать ненужных теней и перспективы, которые испортят текстуру при наложении на 3D-модель.

Важность экспериментов

Ни один гайд, даже самый подробный, не заменит практики. Промт-инжиниринг — это процесс постоянного перебора и уточнения. Редко когда идеальная картинка получается с первого раза. Обычно приходится делать несколько итераций (reroll), менять одно слово на синоним, переставлять части промта местами. Иногда удаление всего одного лишнего прилагательного кардинально улучшает результат. Не стоит бояться экспериментировать с порядком слов. То, что стоит в начале, влияет сильнее. Если нейросеть не рисует шляпу на герое, переместите слово «шляпа» ближе к началу запроса. Это довольно простое правило, но оно работает безотказно.

Синтаксические хитрости

Интересный нюанс заключается в использовании знаков препинания. Для человека запятая и точка — это разные вещи. Для нейросети же это просто разделители. Однако двойное двоеточие (::) работает как жёсткий разделитель смыслов. Некоторые энтузиасты заметили, что использование плюсов (+) вместо запятых в некоторых моделях дает более «слитное» изображение, где элементы перетекают друг в друга. Но это скорее шаманство, чем строгое правило. Главное — держать промт чистым. Мусорные слова, предлоги и союзы (a, the, in, on) часто игнорируются, поэтому их можно опускать для экономии токенов, хотя для читаемости человеком их лучше оставлять.

Лингвистический барьер

Большинство топовых нейросетей обучались на англоязычном контенте. Поэтому писать промты на русском, конечно, можно (многие сервисы имеют встроенные переводчики), но эффективность такого подхода ниже. Переводчик может исказить смысл, и «лук» (оружие) превратится в «лук» (овощ). Поэтому лучше сразу привыкать формулировать мысли на английском. Тем более, что словарный запас, необходимый для этого, весьма ограничен и специфичен. Достаточно выучить пару десятков терминов из сферы фотографии и живописи, чтобы чувствовать себя уверенно. А если совсем сложно — всегда можно попросить тот же ChatGPT перевести ваш запрос и адаптировать его под формат промта.

Эволюция инструментов

Сфера генеративного искусства развивается с бешеной скоростью. То, что было актуально полгода назад, сегодня может уже не работать. Например, раньше приходилось писать огромные «простыни» текста, чтобы получить высокое качество. Современные модели (вроде Midjourney v6 или DALL-E 3) научились понимать короткую естественную речь гораздо лучше. Теперь фраза sad robot in the rain может дать результат не хуже, чем абзац технического текста. Но понимание основ структуры промта всё равно дает вам преимущество и контроль над ситуацией. Ведь случайно получить красиво — легко, а получить именно то, что нужно — это уже профессионализм.

Роль насмотренности

Хороший промт-инженер — это, по сути, куратор с широким кругозором. Чтобы просить стиль «ар-деко» или «киберпанк», нужно знать, как они выглядят. Чтобы требовать «рембрандтовское освещение», нужно видеть картины Рембрандта. Поэтому, помимо изучения команд, стоит уделить время изучению истории искусств, направлений дизайна и основ фотографии. Чем богаче ваш визуальный багаж, тем интереснее и разнообразнее будут ваши запросы. Нейросеть знает все стили мира, но она не сможет их применить, если вы не назовете их по имени. Это тот случай, когда эрудиция напрямую конвертируется в качество визуального контента.

Стиль текста в картинке

До недавнего времени генерация текста внутри картинки была ахиллесовой пятой всех нейросетей. Они выдавали нечитаемую абракадабру. Сейчас ситуация меняется. Если вам нужна вывеска с конкретной надписью, нужно взять текст в кавычки внутри промта. Пример:

Neon sign on a brick wall saying «OPEN 24/7», red glow, night time, realistic

Кавычки служат сигналом для ИИ, что содержимое внутри них — это не объект для рисования, а именно символы, которые нужно воспроизвести. Да, ошибки всё ещё случаются, и буквы могут плясать, но прогресс в этой области колоссальный.

Стоит ли гнаться за платными моделями?

Бесплатные генераторы хороши для развлечения, но если речь идёт о работе, серьёзное вложение в подписку на топовые сервисы обычно окупается. Качество детализации, понимание сложных запросов и гибкость настроек у флагманов рынка несоизмеримо выше. Это не значит, что на бесплатных аналогах нельзя сделать шедевр. Можно. Но усилий и времени это потребует в разы больше. Платные инструменты — это прежде всего экономия вашего времени и нервов. Впрочем, начинать обучение можно и нужно на доступных инструментах, чтобы набить руку и понять принципы, не тратя деньги на генерации, которые пойдут в корзину.

Философия сотворчества

В конечном счёте, написание промта — это диалог. Вы задаете тему, машина предлагает вариации. Не стоит относиться к этому как к жесткому программированию. Оставьте нейросети немного пространства для творчества, не загоняйте её в слишком тесные рамки, если только задача не требует стопроцентной точности. Иногда случайная ошибка алгоритма или неправильно понятое слово рождают образы, до которых человеческий разум просто бы не додумался. В этом и кроется прелесть генеративного искусства — в синергии человеческого намерения и машинной интерпретации. Пусть этот инструмент станет продолжением вашей фантазии, а не её заменителем. Укрощение строптивого ИИ — задача не из лёгких, но результат определённо того стоит. Создавайте смело!