Как писать промты для нейросети генерации картинок (с примерами готовых промтов)

Казалось бы, что может быть проще: ввёл пару слов в строку, нажал кнопку и получил шедевр цифрового искусства? Именно так думает обыватель, впервые открывая Discord с Midjourney или интерфейс Stable Diffusion. Однако реальность довольно быстро спускает с небес на землю: вместо ожидаемой портретной фотографии голливудского качества на экране появляется нечто с шестью пальцами, кривыми глазами и в странной одежде, напоминающей бабушкин ковёр. Разочарование, как правило, наступает мгновенно. Ведь нейросеть — это не телепат, читающий ваши мысли, а всего лишь сложный алгоритм, который понимает слова буквально, без контекста и фантазии. Она оперирует паттернами, найденными в миллиардах изображений, и смешивает их по вашей команде. И если команда дана невнятная, результат будет соответствующим. Но чтобы превратить этот хаос в управляемый инструмент и заставить «бездушную машину» рисовать именно то, что нужно вам, стоит освоить искусство написания промтов — своего рода заклинаний нового времени.

С чего начинается работа?

С определения главного объекта. Это, пожалуй, фундамент всего процесса. Нельзя просто написать «кот» и ждать чуда. Нейросеть выдаст вам усреднённого кота, который может оказаться и вектором, и фотографией, и детским рисунком. А вот если вы уточните, что это «пушистый рыжий мейн-кун, сидящий на старом дубовом столе», задача для алгоритма станет куда понятнее. Начинать промт всегда стоит с субъекта. Это может быть человек, животное, ландшафт или абстрактная геометрическая фигура. Важно сразу задать действие. Что делает ваш объект? Спит, бежит, смотрит в камеру или летит в космос? Глаголы добавляют динамику. Статичные картинки часто выглядят скучно, а вот «рыцарь, сражающийся с драконом» — это уже история. Причем история, которую алгоритму довольно просто визуализировать, опираясь на базу данных фэнтези-арта.

Анатомия правильного запроса

Далее следует погрузиться в детализацию. Представьте, что вы режиссёр на съёмочной площадке. У вас есть актёр (субъект), но этого мало. Нужно выставить свет, подобрать декорации и определиться с плёнкой. Структура профессионального промта обычно выглядит как слоёный пирог. После описания объекта идет среда. Где происходит действие? В киберпанк-городе, в лесу под дождем или в стерильной лаборатории? Антураж задает настроение. Затем мы добавляем описание стиля. И тут открывается настоящий кладезь возможностей. Можно потребовать сделать изображение в стиле масляной живописи, акварели, карандашного наброска или гиперреалистичной фотографии. Без этого уточнения нейросеть выберет стиль случайным образом, и он вам, скорее всего, не понравится. Завершают эту цепочку технические параметры: разрешение, соотношение сторон и уровень детализации.

Свет и цвет: инструменты художника

Важно ли освещение? Безусловно. Это тот самый нюанс, который отличает плоскую, невыразительную картинку от драматичного кадра. Освещение творит чудеса. Если вы напишете «cinematic lighting» (кинематографичное освещение), картинка сразу приобретёт объём и глубину. А вот «volumetric lighting» добавит в воздух красивые лучи света и лёгкую дымку. Не стоит забывать и про время суток. «Golden hour» (золотой час) зальёт всё тёплым, мягким светом заката, идеальным для портретов и пейзажей. А если нужна мрачная атмосфера, подойдет «blue hour» или «moonlight». Цветовая палитра тоже играет скрипку. Можно задать конкретные тона: «pastel colors» для нежности или «neon cyberpunk palette» для агрессивного футуризма. Нейросеть очень чувствительна к таким маркерам. Главное — не перегружать запрос противоречивыми указаниями, иначе алгоритм просто запутается в показаниях.

Стилевые модификаторы и художники

Ещё один мощный приём — использование имен известных художников. Это работает безотказно. Если добавить в промт «by Vincent van Gogh», вы получите характерные вихревые мазки и жёлто-синюю гамму. А фраза «by Greg Rutkowski» стала уже легендарной в сообществе нейрохудожников: она автоматически делает картинку похожей на эпичный цифровой арт с высокой детализацией, характерный для обложек фэнтези-игр. Можно смешивать стили. Попробуйте скомбинировать «by Salvador Dali» и «Pixar style». Результат будет, мягко говоря, неоднозначный, но точно интересный. К этой же категории относятся отсылки к движкам рендеринга. Фразы «Unreal Engine 5», «Octane Render» или «Ray Tracing» дают сигнал системе, что нужно стремиться к 3D-графике высокого качества с реалистичными отражениями и тенями. Это особенно актуально для создания концепт-артов техники или архитектуры.

Как управлять камерой?

Обыватель редко задумывается о том, как снят кадр, но для промт-инженера это критически важно. Ведь от ракурса зависит восприятие. Хотите показать величие небоскрёба? Используйте «worm’s-eye view» (вид снизу). Нужно показать масштаб битвы? Ваш выбор — «bird’s-eye view» (вид с высоты птичьего полёта). Фокусное расстояние объектива тоже имеет значение. Для портретов идеально подходит «85mm lens», который размывает фон и делает лицо пропорциональным. А вот для пейзажей лучше указать «wide angle» или «16mm». Глубина резкости (depth of field) позволяет акцентировать внимание на главном объекте, превращая фон в красивое боке. Стоит отметить, что нейросети довольно точно имитируют оптические эффекты реальных камер, вплоть до хроматических аберраций и зернистости плёнки, если вы их об этом попросите.

Вредно ли игнорировать негативные промты?

Многие новички пропускают этот этап, а зря. Негативный промт (параметр —no в Midjourney или отдельное поле в Stable Diffusion) — это фильтр, отсекающий лишнее. Это настоящий спасательный круг, когда нейросеть упорно рисует третью руку или лишнюю голову. В это поле обычно вписывают всё то, чего на картинке быть не должно:

ugly, deformed, extra limbs, blur, watermark, text, bad anatomy

Список может быть довольно внушительным. Особенно это касается текста и водяных знаков. Нейросети обучались на стоковых фото, поэтому часто пытаются воспроизвести логотипы стоков или непонятные надписи. Команды вроде «no text» или «no signature» помогают очистить изображение от этого визуального мусора. Скрупулезный подход к исключениям часто важнее, чем само описание объекта, ведь исправить уродливую геометрию постфактум в фотошопе гораздо сложнее, чем сразу сгенерировать чистый вариант.

Примеры портретных запросов

Перейдем к конкретике. Допустим, нам нужен реалистичный женский портрет. Простой запрос «красивая девушка» даст скучный результат. А вот развернутый вариант сработает иначе. Попробуем такой конструкт:

Hyper-realistic portrait of a young woman with freckles and green eyes, natural lighting, soft shadows, 85mm lens, f/1.8, bokeh background, detailed skin texture, 8k resolution, photography by Annie Leibovitz

Здесь мы указали всё: объект (девушка с веснушками), свет (естественный), технику (объектив, диафрагма) и качество (8k, текстура кожи). Результат будет выглядеть как дорогой глянцевый снимок. Если же хочется чего-то более художественного, можно изменить вводные данные:

Portrait of an old cyberpunk cyborg warrior, neon lights, scars on face, rain, night city background, synthwave style, detailed metal parts, cinematic composition, by ArtStation trends

Разница будет колоссальной. В первом случае — нежная естественность, во втором — агрессивная технологичная эстетика.

Промты для пейзажей и архитектуры

С пейзажами работает та же логика, но акценты смещаются на масштаб и атмосферу. Например, для создания фэнтезийного замка подойдет такой текст:

Majestic fantasy castle on a floating island in the sky, waterfalls falling into clouds, sunset lighting, epic scale, clouds, birds, high fantasy style, detailed stone texture, volumetric fog, wide angle view

Слово «Majestic» (величественный) задает тон, а «volumetric fog» (объёмный туман) добавляет мистики. Для современной архитектуры запрос будет суше и техничнее:

Modern minimalist glass house in the forest, autumn, rain, interior view through large windows, cozy warm light inside, realistic architectural visualization, Corona render, 4k

Тут мы играем на контрасте холодного леса и тёплого света внутри дома — классический прием архитектурной визуализации, который всегда цепляет взгляд.

Иллюстрации и логотипы

Нейросети отлично справляются и с векторной графикой. Это же находка для дизайнеров. Чтобы получить логотип, не нужно описывать сложные текстуры. Наоборот, нужно требовать простоту. Пример промта для логотипа кофейни:

Minimalist vector logo of a coffee bean, flat style, white background, simple lines, orange and brown colors, professional design, no text

Ключевые слова здесь — «flat style» (плоский стиль) и «white background» (белый фон), чтобы потом было легко вырезать объект. А если нужна иллюстрация для детской книги, запрос трансформируется:

Cute fluffy bunny reading a book under a mushroom, fairy tale style, watercolor painting, pastel colors, soft edges, dreamy atmosphere, detailed illustration

Слово «dreamy» (мечтательный) заставляет нейросеть смягчать линии и добавлять волшебное свечение.

Специфика разных нейросетей

Стоит учитывать, что Midjourney и Stable Diffusion — это два разных мира. Midjourney более «художественная» по умолчанию. Она тяготеет к красивым, завершенным композициям, даже если промт короткий. Ей можно скармливать более абстрактные понятия, и она выдаст что-то эпичное. Stable Diffusion же — инструмент более точный, но и более капризный. Он требует жёсткого контроля и длинных негативных промтов, но зато позволяет точнее управлять позами персонажей (через ControlNet) и композицией. Есть ещё DALL-E 3, который понимает естественный язык лучше всех. Ему не нужны наборы тегов через запятую, с ним можно разговаривать как с человеком: «Нарисуй мне кота, который сидит на луне и смотрит на Землю». И он поймет. Но вот фотореализм у него часто страдает «пластиковостью». Поэтому выбор инструмента зависит от задачи: нужен арт — идите в Midjourney, нужен контроль — запускайте Stable Diffusion.

Ошибки, которые убивают результат

Частая ошибка новичков — слишком длинные и запутанные предложения. Нейросеть теряет нить повествования, если вы напишете абзац из «Войны и мира». Лучше разбивать описание на логические блоки. Ещё один грех — противоречия. Нельзя требовать одновременно «sunny day» и «night sky». Машина попытается совместить несовместимое, и получится визуальная каша. Также не стоит перебарщивать с весами слов (в Midjourney это делается через двойное двоеточие ::). Если усилить все слова, то ни одно из них не станет главным. Важен баланс. И, конечно, не стоит ждать идеального результата с первой попытки. Генерация — это процесс перебора. Иногда приходится нажимать кнопку «Reroll» десятки раз, меняя по одному слову в запросе, чтобы наткнуться на тот самый «золотой» вариант.

Помощники в написании: ChatGPT и другие

Стыдно ли использовать текстовые нейросети для написания промтов? Вовсе нет. Это, наоборот, повышает эффективность. ChatGPT отлично понимает структуру запросов для Midjourney. Можно попросить его: «Act as a prompt engineer. Write a detailed prompt for an image of a futuristic car in Tokyo style». И он выдаст вам такой набор прилагательных и технических терминов, о которых вы могли и не знать. К тому же, он поможет найти синонимы. Если слово «big» не дает нужного эффекта, бот предложит «gigantic», «colossal» или «massive». Это расширяет словарный запас и позволяет экспериментировать с оттенками смыслов.

Фактор случайности и терпение

Генерация изображений — это всегда немного лотерея. Даже с идеальным промтом можно получить что-то странное. Но в этом и есть изюминка процесса. Иногда ошибки алгоритма рождают идеи, которые человеку и в голову бы не пришли. Случайный блик, странное смешение цветов или неожиданная поза персонажа могут стать отправной точкой для нового творчества. Не стоит опускать руки после первой неудачи. Нейросеть нужно «дрессировать», подбирая ключи к ее логике. Это похоже на изучение иностранного языка: сначала вы говорите простыми фразами и вас едва понимают, но со временем начинаете изъясняться поэтично и точно. Практика здесь — лучший учитель. Чем больше запросов вы напишете, тем лучше будете чувствовать, как то или иное слово влияет на пиксели на экране.

Поэтому экспериментируйте смелее. Не бойтесь сочетать несочетаемое, использовать странные метафоры и технические термины из мира фотографии. В конце концов, промт-инжиниринг — это новая форма творчества, где холстом служит экран монитора, а кистью — ваше воображение и словарный запас. И пусть каждый ваш запрос становится маленьким открытием, а финальное изображение радует глаз и вызывает желание творить дальше. Удачи в поисках своего идеального кадра!