«Создать шедевр за пару кликов» — эта мысль наверняка посещала каждого, кто впервые открывал Discord с ботом Midjourney или запускал локальную версию Stable Diffusion. Однако вместо киберпанк-города или фотореалистичного портрета на экране довольно часто появляется нечто с тремя ногами, шестью пальцами или лицом, способным напугать режиссёра хорроров. Разочарование в таких случаях вполне понятно, ведь в воображении картинка выглядела идеально. Но проблема обычно кроется не в «глупой машине», а в самом запросе, который система поняла слишком буквально. Нейросети — это, по сути, капризные джинны: они исполняют ровно то, что вы попросили, а не то, что вы имели в виду. Поэтому, прежде чем обвинять искусственный интеллект в отсутствии художественного вкуса, стоит освоить язык, на котором он говорит.
С чего начинается диалог?
В представлении многих новичков промт — это простое описание сюжета, вроде «красивая девушка сидит в кафе». Поймёт ли это нейросеть? Безусловно. Но результат вас вряд ли обрадует. Ведь понятие «красивая» у алгоритма своё, обученное на миллионах самых разных изображений, а «кафе» может оказаться как парижской верандой, так и придорожной забегаловкой в Небраске. Начинать нужно с конкретики. Фундамент любого запроса — это объект. Кто или что находится в центре композиции? Это может быть кот-космонавт, древний замок или футуристический автомобиль. Определив «героя», тут же задавайте себе вопросы: как он выглядит? Во что одет? Что делает? Но и здесь есть нюанс. Машина лучше понимает существительные и прилагательные, чем сложные глаголы действия. Фраза «рыцарь сражается с драконом» может выдать кашу из конечностей, а вот «рыцарь и дракон, боевая стойка, динамичная поза» сработает куда точнее.
Анатомия идеального запроса
Построение промта напоминает сборку конструктора, где каждая деталь отвечает за свой слой реальности. Скелетом запроса всегда выступает формула: Объект + Среда + Стиль + Параметры. С объектом мы уже разобрались. Далее следует среда. Где происходит действие? В лесу, в открытом космосе, под водой? Окружение задаёт атмосферу. А вот дальше начинается магия стилизации. Если вы промолчите, нейросеть выберет «стиль по умолчанию», который довольно часто выглядит как среднее арифметическое всего интернета. Поэтому указывайте медиум. Это может быть «oil painting» (масляная живопись), «3D render» (трёхмерная графика), «polaroid photo» (снимок на полароид) или «pencil sketch» (карандашный набросок). К слову, упоминание конкретных художников или студий — мощнейший инструмент. Фраза «by Van Gogh» моментально закрутит небо в характерные вихри, а «Studio Ghibli style» добавит картинке уютную аниме-эстетику с насыщенными зелёными и голубыми тонами.
Свет и цвет
Отдельного внимания заслуживает работа с освещением, ведь именно свет лепит форму и создаёт настроение. Игнорировать этот аспект — значит получить плоское, скучное изображение. Профессиональные промт-инженеры (да, такая профессия уже существует) используют кинематографические термины. Хотите драму? Добавляйте «volumetric lighting» (объёмный свет) или «chiaroscuro» (кьяроскуро, резкий контраст света и тени). Для портретов отлично подходит «rembrandt lighting» (свет Рембрандта) или «softbox lighting» (мягкий студийный свет). А если цель — создать футуристический антураж, то вашими лучшими друзьями станут «neon lights» (неоновые огни) и «bioluminescent» (биолюминесценция). Цветовая палитра также поддаётся контролю. Можно попросить «pastel colors» для нежности или «vibrant colors» для яркости. Удивительно, но даже указание времени суток, например «golden hour» (золотой час), кардинально меняет восприятие картинки, заливая всё тёплым закатным солнцем.
Словарь эрудированного творца
Существуют особые слова-триггеры, которые действуют на нейросеть как усилители вкуса. Они не меняют сюжет, но подтягивают качество изображения до невероятных высот. Дело в том, что модели обучались на базах данных, где качественные арты имели определённые теги. Используя их, вы как бы намекаете системе: «Сделай мне так же круто, как там». К таким «волшебным словам» относится, например, «Unreal Engine 5» — этот тег заставляет ИИ генерировать картинку с детализацией современного игрового движка. Ещё один популярный маркер — «Trending on ArtStation». Он подтягивает стилистику топовых работ с популярного сайта для художников. Для любителей фотореализма настоящим спасательным кругом станут технические характеристики камер: «8k resolution», «highly detailed», «shot on 35mm», «f/1.8» (для размытого фона) или «ISO 100» (для отсутствия шума). Однако перебарщивать с ними не стоит. Если накидать в промт все красивые слова сразу, нейросеть может запутаться в приоритетах.
Вредно ли писать много?
Бытует мнение, что чем длиннее промт, тем шедевральнее результат. Так ли это? Отчасти да, но есть подводные камни. Нейросети имеют лимит на количество токенов (единиц информации), которые они могут удержать в «памяти» при генерации. Слишком длинный, перегруженный эпитетами текст превращается в «словесный салат». Внимание алгоритма рассеивается, и он начинает игнорировать важные детали. Важно соблюдать баланс. Лучше использовать одно ёмкое слово, чем три слабых. Вместо «очень, очень старый разрушенный дом» напишите «ruins» (руины) или «abandoned decrepit house» (заброшенный ветхий дом). Также стоит избегать противоречивых команд. Если вы попросите «солнечный день» и «ночное небо» одновременно, результат будет непредсказуемым и, скорее всего, галлюциногенным. Структура должна быть логичной, а вес слов — продуманным. В некоторых нейросетях, кстати, можно вручную повышать значимость слов, используя скобки или двоеточия с цифрами, но это уже уровень «про».
Фотореализм на практике
Перейдём от теории к конкретике. Допустим, ваша цель — создать портрет, который невозможно отличить от фотографии. Задача не из лёгких. Ведь кожа человека, глаза, волосы — это сложнейшие текстуры. Промт для такой задачи может выглядеть следующим образом:
Close-up portrait of an elderly fisherman, weathered skin, deep wrinkles, detailed grey beard, intense blue eyes looking at camera, wearing yellow rain jacket, storm clouds in background, dramatic cinematic lighting, water droplets on face, shot on Sony A7R IV, 85mm lens, hyperrealistic, 8k details
Обратите внимание на структуру. Сначала объект (рыбак), потом детали внешности (кожа, борода), одежда, фон, свет и, наконец, технические параметры камеры. Именно упоминание конкретной модели фотоаппарата и объектива (85mm — классика для портретов) даёт тот самый эффект присутствия и правильные пропорции лица.
Фэнтези и стилизация
А если душа просит чего-то сказочного? Здесь можно отпустить фантазию в полёт и забыть о физике. Пример промта для волшебного пейзажа:
Majestic floating island in the sky, giant waterfalls falling into clouds, ancient elven ruins made of white marble, glowing crystals, fantasy world, dreamlike atmosphere, soft purple and pink color palette, intricate details, wide angle, style by Thomas Kinkade and Makoto Shinkai
В данном случае мы смешиваем несочетаемое: манеру Томаса Кинкейда (мастера пасторальных пейзажей) и Макото Синкая (гения аниме-фонов). Результатом станет воздушная, невероятно детализированная картинка с мягким свечением. Использовать имена художников — это, пожалуй, самый простой способ получить гарантированно стильный результат без долгих подборов описательных слов.
О чём стоит промолчать?
У любой медали есть обратная сторона. В генерации картинок это так называемые «негативные промты» (Negative Prompt). Это поле, куда вы вписываете то, чего категорически не хотите видеть на изображении. Игнорировать этот инструмент — значит обрекать себя на бесконечные переделки. Нейросети часто грешат созданием лишних конечностей, кривых лиц или странных надписей. Поэтому в негативный промт стоит по умолчанию добавлять такой набор:
ugly, deformed, extra fingers, missing limbs, blurry, low quality, watermark, text, signature, bad anatomy, cropped
Это своего рода фильтр грубой очистки. В Midjourney это делается через параметр «–no» (например, –no hands text), а в Stable Diffusion для этого есть отдельное окно. Отсекая лишнее, вы позволяете алгоритму сосредоточить все ресурсы на прорисовке главного.
Коммерческая иллюстрация и логотипы
Нейросети давно перестали быть просто игрушкой и стали рабочим инструментом для дизайнеров. Нужно создать логотип? Откажитесь от лишнего мусора в запросе. Промт должен быть лаконичным:
Minimalist vector logo of a fox head, flat style, simple lines, orange and white, white background, professional design
Слова «vector» и «flat style» здесь ключевые — они запрещают нейросети уходить в реализм и тени. А вот для создания иконки мобильного приложения запрос изменится:
3D icon of a mail envelope, isometric view, glossy material, claymorphism style, soft shadows, cute, colorful, high quality render
Стиль «claymorphism» или «glassmorphism» сейчас крайне популярен, и ИИ отлично с ним справляется, выдавая объёмные, «вкусные» объекты, которые так и хочется нажать.
Технические нюансы
Нельзя не упомянуть и о параметрах соотношения сторон. По умолчанию большинство сетей выдаёт квадрат. Но для обложки видео на YouTube или обоев на рабочий стол это не подходит. В Midjourney, например, за это отвечает команда «–ar» (aspect ratio). Добавив в конце промта «–ar 16:9», вы получите кинематографический широкий формат. А для мобильных экранов идеально подойдёт «–ar 9:16». Также интересен параметр хаоса или стилизации. Высокие значения стилизации дают нейросети творческую свободу, позволяя ей отходить от вашего запроса в угоду красоте, а низкие заставляют строго следовать инструкции. Это тонкая настройка, с которой стоит экспериментировать.
Работа над ошибками
Даже самый идеальный промт не всегда срабатывает с первого раза. И это нормально. Генеративное искусство — это процесс перебора и уточнения. Получили слишком тёмную картинку? Добавьте «brightly lit» или уберите мрачные эпитеты. Объект слишком далеко? Впишите «close-up» или «macro shot». Лицо персонажа выглядит кукольным? Добавьте «skin texture», «pores», «imperfect skin». Важно анализировать результат и вносить точечные правки, а не переписывать весь запрос с нуля. Иногда замена одного слова, например «big» на «colossal», меняет восприятие масштаба всей сцены. Это кропотливый труд, но чувство, когда из цифрового шума проступает именно тот образ, который вы держали в голове, стоит потраченных усилий.
Экспериментируйте смелее! Ваш идеальный промт — это всегда комбинация знаний, интуиции и капельки случайности, которая и делает работу с нейросетями таким захватывающим приключением. Удачи в творческих поисках, и пусть ваши генерации всегда будут шедеврами!