Создание изображений по текстовому описанию ещё пару лет назад казалось уделом избранных программистов или людей, готовых сутками изучать сложные мануалы на английском языке. Многие ведь помнят тот самый момент, когда социальные сети заполонили аватарки, сгенерированные нейросетями, и каждый второй пытался понять, как же повторить этот успех. Однако языковой барьер часто становился непреодолимой стеной, ведь львиная доля топовых моделей обучалась исключительно на западном контенте. Но ситуация изменилась кардинально. Появились отечественные разработки, да и мировые гиганты начали понимать «великий и могучий» куда лучше. И вот тут на сцену выходит навык промпт-инжиниринга. Умение грамотно сформулировать запрос — это не просто прихоть, а необходимость. Ведь нейросеть — это джинн, который исполняет желания буквально, иногда слишком буквально. Поэтому, прежде чем нажимать кнопку «Сгенерировать», стоит разобраться в механике составления запросов на русском языке и изучить рабочие формулы, которые гарантированно дадут хороший результат.
Сложно ли составить запрос?
Казалось бы, чего проще: напиши «красивый кот» и радуйся картинке. Но на практике результат часто разочаровывает. Вместо пушистого шедевра на экране появляется нечто размытое и кривое. Дело в том, что нейросети мыслят тегами и образами, а не литературными оборотами. Им важна конкретика. Слово «красивый» для машины — пустой звук, абстракция, которую она интерпретирует случайным образом (рандомно). Гораздо эффективнее работают описания текстур, освещения и стиля. Сам по себе русский язык, благодаря своей гибкости и богатству синонимов, является настоящим кладезем для творчества. Главное — научиться переводить свои визуальные фантазии на понятный алгоритму язык тегов, даже если вы пишете слитным предложением. И здесь в игру вступают так называемые модификаторы.
Анатомия правильного промта
Любой качественный запрос строится по определённой логике, которую можно сравнить со слоёным пирогом. Основой всегда выступает главный объект. Это то, что должно быть в центре композиции. Будь то «киберпанк-самурай» или «натюрморт с грушами». Сразу за объектом следует описание окружения. Где находится герой? В мрачном лесу, на космической станции или в уютной кофейне? Без фона объект повиснет в вакууме. А дополняет эту конструкцию описание стиля и освещения. Именно освещение творит чудеса, превращая плоскую картинку в объёмное полотно.
Стоит отметить, что порядок слов имеет значение. То, что стоит в начале предложения, для нейросети важнее всего. Если вы напишете «кот в скафандре на Марсе», то котом она займётся в первую очередь. А если «Марс, по которому идёт кот в скафандре», то акцент сместится на пейзаж. Довольно часто новички совершают ошибку, перегружая начало запроса мусорными словами вроде «пожалуйста, нарисуй мне…». Это лишний шум. Машине не нужна вежливость, ей нужны факты.
Реализм и фотосъёмка: примеры запросов
Многие пользователи грезят созданием изображений, которые невозможно отличить от реальных фотографий. И добиться этого вполне реально. Секрет кроется в использовании терминов из мира профессиональной фотосъёмки. Нейросеть прекрасно знает, как выглядит картинка, снятая на определённый объектив или плёнку.
Попробуйте использовать такую формулу для портрета:
«Фотореалистичный портрет молодой девушки, взгляд в камеру, естественная текстура кожи, веснушки, мягкое утреннее освещение, боке, снято на 85mm, диафрагма f/1.8, высокое разрешение, 8k».
Здесь каждое слово работает на результат. «85mm» задает фокусное расстояние, идеальное для портретов, а «f/1.8» и «боке» обеспечивают то самое красивое размытие фона. Упоминание текстуры кожи не даёт алгоритму сделать лицо «пластиковым», что довольно часто случается при генерации людей.
А вот другой пример, если хочется получить пейзаж, достойный обложки журнала National Geographic:
«Горное озеро на закате, отражение облаков в воде, золотой час, гиперреализм, детальная прорисовка камней на переднем плане, широкоугольный объектив, эпичное небо, 4k, кинематографичное освещение».
Термин «золотой час» здесь является ключевым. Он задаёт тёплую, мягкую цветовую гамму, характерную для заката или рассвета. Слово «эпичное» добавляет сцене драматизма и масштаба.
Стилизация под живопись и арт
Но не реализмом единым жив человек. Иногда душа просит чего-то сказочного или нарисованного. В этом случае словарный запас придётся сменить. Вместо технических параметров камеры нужно использовать названия художественных техник и материалов.
Для любителей классики подойдёт такой вариант:
«Старый рыбак в лодке, бушующее море, стиль масляная живопись, крупные мазки, техника импасто, в стиле Айвазовского, драматичное освещение, мрачная атмосфера, шедевр искусства».
Упоминание конкретного художника (Айвазовского) — это мощнейший «крючок» для нейросети. Она мгновенно подтягивает из своей базы данных миллионы изображений, связанных с этим именем, и пытается имитировать его манеру. «Техника импасто» подсказывает, что краска должна лежать густо, создавая рельеф.
Если же вам ближе современная цифровая иллюстрация или аниме, попробуйте следующий промт:
«Девушка-киборг в неоновом городе, киберпанк, стиль аниме, работы Макото Синкая, детальная прорисовка глаз, светящиеся элементы одежды, дождь, отражения, яркие насыщенные цвета, концепт-арт».
Здесь имя Макото Синкая гарантирует невероятную детализацию фонов и красивое небо, чем славится этот режиссёр. «Концепт-арт» даёт команду сделать изображение чистым, проработанным и стильным.
Шедеврум или Кандинский?
На российском рынке сейчас солируют две крупные модели — Kandinsky от Сбера и Шедеврум от Яндекса. И у каждой есть свои нюансы, которые стоит учитывать при написании промтов.
Kandinsky, например, отлично понимает сложные художественные отсылки и абстракцию. Ему можно смело скармливать запросы вроде «взрыв эмоций в стиле абстрактного экспрессионизма», и он выдаст нечто весьма интересное. Эта модель довольно лояльна к смешиванию русского и английского, хотя чистый русский понимает прекрасно.
Пример запроса для Kandinsky:
«Русская народная сказка, избушка на курьих ножках в дремучем лесу, мистическая атмосфера, туман, свет из окна, детальная прорисовка мха на брёвнах, стиль Ивана Билибина».
Заметьте, использование имени Билибина здесь крайне уместно. Кандинский «на ура» считывает наш культурный код. Зарубежная Midjourney может нарисовать избушку просто как деревянный дом на ножках (буквально человеческих), а отечественная модель понимает контекст правильнее.
Шедеврум же тяготеет к более конкретным и фотореалистичным образам. Он хорошо работает с короткими, ёмкими запросами, хотя и длинные описания переваривает неплохо. У Шедеврума есть своя фишка — он часто добавляет изображению некую «глянцевость», если не попросить обратного.
Пример для Шедеврума:
«Кот-космонавт в открытом космосе, планета Земля на фоне, звёзды, скафандр с российским флагом, высокая детализация шерсти, кинематографичный кадр, 3d рендер».
Фраза «3d рендер» здесь помогает получить объёмное, похожее на кадр из мультфильма изображение.
Отрицательный промт: что это и зачем нужно?
Бывает так, что нейросеть упорно рисует то, чего вы не просили. Лишние пальцы (классика жанра), размытые лица на заднем плане, ненужные надписи. Для борьбы с этим существует Negative Prompt (отрицательный запрос). Это список того, чего на картинке быть НЕ должно. В некоторых интерфейсах для этого есть отдельное поле, а в ботах Telegram это часто пишется через специальный параметр (например, –no).
Типичный набор для исключения брака выглядит так:
«Искаженные лица, лишние конечности, размытость, водяные знаки, текст, подпись, плохая анатомия, уродство, обрезанное изображение, низкое качество».
Конечно, вписывать это нужно в том случае, если интерфейс позволяет. Если же вы работаете в простом чате, можно попытаться добавить в конце основного запроса фразу: «без размытия, чёткие линии, правильная анатомия». Хотя, честно говоря, отдельное поле для негатива работает куда эффективнее. Это своего рода фильтр, через который просеивается фантазия нейросети, оставляя только «золотые» крупицы.
Чем русские промты лучше английских?
Скептики могут возразить: зачем мучиться с русским, если оригинал всегда лучше? Безусловно, большинство моделей обучалось на английском датасете. Но! Современные алгоритмы используют мощнейшие встроенные переводчики и, что ещё важнее, мультимодальные модели (типа CLIP), которые связывают понятия, а не просто слова. Слово «тоска» на русском несёт в себе чуть иной эмоциональный окрас, чем английское «sadness» или «melancholy». И отечественные нейросети этот нюанс улавливают.
Более того, описывая сцены из нашей реальности (панельные дома, берёзовые рощи, самовар, ушанка), вы получите гораздо более точный результат на родном языке. Зарубежный ИИ при запросе «typical russian yard» может выдать клюкву с медведями. А запрос «панельная пятиэтажка, зима, бабушки у подъезда, сугробы, серое небо, реализм» в том же Кандинском создаст до боли знакомую, атмосферную картинку.
Полезные слова-усилители
Чтобы ваши промты заиграли новыми красками, стоит взять на вооружение список слов, которые значительно улучшают качество генерации. Они работают как специи в блюде.
Для детализации отлично подходят: «высокодетализированный», «сложная проработка», «филигранные детали», «ультрачеткий».
Для освещения используйте: «объёмный свет», «студийный свет», «неоновая подсветка», «сумеречные лучи», «глобальное освещение».
Для композиции: «симметрия», «золотое сечение», «вид сверху», «макросъёмка», «широкий угол».
Попробуйте добавить в конец вашего обычного запроса связку: «тренды artstation, 8k, шедевр, лучшее качество». Вы удивитесь, насколько изменится результат. Нейросеть, видя слово «шедевр», старается изо всех сил убрать шумы и подтянуть композицию.
Подводные камни генерации
Конечно, не всё так гладко. Главная проблема — это галлюцинации нейросети. Иногда она путает право и лево, не может сосчитать пальцы или превращает сложный предмет в мешанину пикселей. Особенно сложно даются руки и текст. Если вы попросите нарисовать «вывеску с надписью МАГАЗИН», скорее всего, вы получите набор инопланетных иероглифов. Это связано с тем, что нейросеть не умеет читать и писать в привычном нам понимании, она воспринимает буквы как визуальные узоры.
Ещё один нюанс — переобучение. Если вставить в промт слишком много противоречивых стилей (например, «киберпанк» и «средневековая гравюра»), результат может превратиться в визуальную кашу. Лучше придерживаться одного вектора.
Также стоит помнить про цензуру. Большинство публичных сервисов имеют встроенные фильтры. Запросы, содержащие насилие или откровенный контент, будут заблокированы или проигнорированы. И это правильно, ведь технология должна нести созидательный характер.
Стоит ли экспериментировать с длиной?
Да, но с умом. Сверхкороткие промты («лес») дают нейросети полную свободу, и результат будет непредсказуемым. Сверхдлинные «полотна» на полстраницы могут запутать алгоритм, и он просто проигнорирует половину слов. Золотая середина — это 3-5 предложений или набор из 10-15 ключевых тегов, разделённых запятыми.
Пример сбалансированного запроса:
«Фэнтезийный замок на вершине скалы, вокруг летают драконы, водопады стекают в бездну, эпичное фэнтези, стиль Властелин Колец, величественно, облака, закатное солнце, высокая детализация архитектуры, matte painting».
Здесь есть и объект, и окружение, и настроение, и технические стилистические указания.
Практика — ключ к успеху
Никакая теория не заменит личного опыта. Нейросети — это инструмент, к которому нужно привыкнуть, нащупать его логику и «характер». Иногда одна запятая меняет смысл всего изображения. Иногда смена слова «огромный» на «гигантский» даёт совершенно другой масштаб. Не бойтесь копировать чужие удачные промты и видоизменять их под себя. Это лучший способ обучения. Сохраняйте удачные связки слов в заметки. Со временем у вас сформируется собственный «словарь», который будет работать безотказно.
Ну и, наконец, не забывайте получать удовольствие от процесса. Ведь перед вами технология, о которой писатели-фантасты мечтали десятилетиями. Возможность воплотить любую, даже самую безумную идею за считанные секунды — это ли не магия XXI века? Пробуйте, смешивайте стили, играйте со светом и ракурсами. Ваш идеальный кадр уже ждёт, когда вы напишете для него правильные слова.