Промт для создания шаржа (с примерами готовых промтов)

Видели ли вы когда-нибудь, как нейросеть пытается пошутить над внешностью человека, но вместо смешного шаржа выдаёт нечто, напоминающее кадры из фильма ужасов? В сети представлено множество руководств по генерации изображений, но именно юмористический портрет остаётся одной из самых сложных задач для искусственного интеллекта. Ведь машине чуждо чувство юмора, а гиперболизация черт лица для неё — это просто математическое искажение, которое легко может превратиться в гротескное уродство. Обыватель часто думает, что достаточно написать слово «caricature», и шедевр готов. Удивительно, но для получения добротного, действительно весёлого результата, нужно буквально «разжевать» алгоритму, где именно нужно смеяться. А начать стоит с понимания того, как именно алгоритмы воспринимают человеческую анатомию в контексте сатиры.

Что такое шарж в «глазах» нейросети?

Сложно ли объяснить бездушному коду, что такое ирония? Да, но результат того стоит. Когда мы говорим о шарже, мы подразумеваем намеренное искажение пропорций при сохранении узнаваемости. Для нейросети, будь то Midjourney или Stable Diffusion, это задача противоречивая. С одной стороны, она обучена на реалистичных фото, с другой — мы требуем от неё нарушить законы физики и анатомии. Львиная доля успеха здесь зависит от правильного подбора слов-триггеров, которые переключают режим генерации с «фотореализма» на «стилизацию». Главное — угадать с балансом. Если переборщить, получится монстр, если недожать — просто портрет человека с большой головой.

Анатомия запроса

С чего начинается выбор правильных слов? С определения объекта и ключевой эмоции. Структура промта для шаржа не терпит хаоса, хотя сам жанр подразумевает некую вольность. Сначала мы описываем персонажа, затем задаём действие, а уже потом накладываем стиль и технические параметры. Один из самых популярных приёмов — прямое указание на диспропорции. В английском языке, на котором «думает» большинство моделей, отлично работают связки вроде «big head, small body» (большая голова, маленькое тело) или «exaggerated features» (преувеличенные черты). Далее следует описание конкретных деталей, которые нужно усилить. Если у человека большие уши, мы пишем «huge ears», если выразительный нос — «prominent nose». К тому же, не стоит забывать про эмоцию. Шарж без эмоции мёртв. Слова «goofy expression» (глупое выражение), «winking» (подмигивающий) или «broad smile» (широкая улыбка) творят чудеса. Ну и, наконец, стиль исполнения, который задаёт общий антураж картинки.

Примеры для мужского портрета

Допустим, нам нужно изобразить типичного офисного работника, но в забавном ключе. Задача не из лёгких. Ведь нужно сохранить солидность костюма, но сделать образ комичным. Первый вариант промта может строиться на контрасте серьёзности и нелепости. Выглядеть это может примерно так:

A funny caricature of a businessman in a suit, huge head, tiny body, holding a giant coffee cup, exaggerated surprised eyes, comic style, 3d render, bright colors, –ar 2:3

Здесь мы используем huge head и tiny body как главные рычаги искажения. Однако спектр объектов не ограничивается офисными планктонами.

А если мы хотим сделать шарж на брутального байкера? Тут уже солирует другая лексика. Мы можем попробовать такой вариант:

Caricature of a tough biker with a long beard, riding a tiny tricycle, leather jacket, exaggerated muscles, grumpy face, big nose, cartoon style, detailed texture, –ar 3:4

Заметьте, как деталь с «крошечным трёхколёсным велосипедом» (tiny tricycle) сразу меняет восприятие, делая образ не страшным, а уморительным. Это же правило касается и профессий. Для повара, например, отлично подойдёт акцент на огромном поварском колпаке, который больше самого персонажа.

Особенности женского шаржа

Обидно ли женщинам видеть себя в кривом зеркале? Довольно часто. Поэтому женский шарж — это ходьба по тонкому льду. Здесь нужен более щепетильный подход. Мы не хотим сделать лицо отталкивающим, мы хотим добавить «изюминку». Лучше отказаться от слов вроде ugly или gross, даже если вы хотите очень сильную сатиру. Вместо этого стоит сосредоточиться на стиле Disney или Pixar, которые искажают пропорции, но сохраняют миловидность.

К примеру, промт для милой, но смешной девушки-блогера может звучать так:

Cute caricature of a girl taking a selfie, very big eyes, huge smartphone in hands, duck face expression, colorful background, soft lighting, Pixar style, 8k, –ar 2:3

Такой подход сглаживает углы. А вот если нужна «перчинка», можно добавить стилизацию под уличный рисунок. Промт будет выглядеть иначе:

Street artist pencil drawing, caricature of a woman with messy hair, holding a cat, exaggerated glasses, funny situation, sketch style, black and white, –ar 1:1

В данном случае чёрно-белая гамма скрывает недостатки кожи, на которых нейросеть могла бы сделать ненужный акцент, и переносит внимание на саму ситуацию.

Стилизация

Выбор стиля — это, пожалуй, самый творческий этап. Ведь именно от него зависит, будет ли картинка выглядеть как дешёвая поделка из перехода или как дорогой цифровой арт. Нейросети отлично понимают отсылки к известным художникам или направлениям.

Попробуйте использовать стиль политической карикатуры. Он отличается резкостью линий и гротескностью. В промт достаточно добавить «political cartoon style» или «editorial illustration». Это придаст изображению газетный, немного винтажный шарм.

Другой интересный вариант — пластилиновая анимация. Промт «claymation style» или «Aardman animation style» превратит вашего героя в персонажа мультфильма «Уоллес и Громит». Это выглядит свежо и необычно, особенно на фоне засилья глянцевых 3D-рендеров.

Ну и, конечно же, нельзя не упомянуть классический карандашный набросок. Фраза «charcoal drawing» (рисунок углём) или «rough pencil sketch» (грубый карандашный набросок) создаёт ощущение ручной работы, что для шаржа часто является плюсом.

Работа с референсами

Можно ли получить похожий шарж без загрузки фото? Практически невозможно. Описание словами даёт лишь типаж, но не портретное сходство. В Midjourney и других продвинутых сетях есть функция Image Prompt (использование картинки как подсказки). Ссылка на фото вставляется в самом начале запроса. Однако тут есть свои подводные камни. Если вы просто вставите фото и напишете «caricature», нейросеть может проигнорировать ваши пожелания по стилю и просто слегка «помять» лицо.

Чтобы этого избежать, нужно играть с параметром веса изображения (Image Weight). В Midjourney за это отвечает команда --iw. Значения варьируются от 0.5 до 2. Если поставить слишком большой вес (например, 2), шарж будет слишком похож на фото и мало похож на шарж. Если слишком маленький — пропадёт узнаваемость. Золотая середина обычно находится в районе 0.7–1.2. Пример комбинированного запроса:

[ССЫЛКА_НА_ФОТО] A funny caricature of this man, big head, small body, holding a fish, fishing rod, exaggerated smile, vector art, flat color, –iw 1

Такой подход позволяет перенести черты лица с фотографии на ту структуру тела, которую вы описали словами.

Групповой шарж: как не сойти с ума?

Сложно ли нарисовать двоих? Да, это настоящий вызов. Нейросети часто путают конечности, смешивают одежду или приделывают голову одного персонажа к телу другого. Чтобы избежать «каши», стоит разделять описания персонажей чёткими границами или использовать специальные синтаксические конструкции (в зависимости от нейросети).

В промте лучше описывать героев последовательно, используя слова «on the left» (слева) и «on the right» (справа). Например:

Two friends caricature. On the left: a man with a beard, holding a beer mug, wearing a green shirt. On the right: a woman with red curly hair, laughing, wearing a blue dress. Bar background, exaggerated features, lively atmosphere, comic book style

Даже с таким подробным описанием придётся сделать несколько генераций (порой десяток), чтобы нейросеть «рассадила» героев по местам.

Технические нюансы и «мусорные» слова

Многие считают, что чем длиннее промт, тем лучше. Но на самом деле перегрузка запроса лишними деталями часто сбивает алгоритм с толку. Слова вроде «ultra realistic», «4k», «8k» в контексте шаржа могут сыграть злую шутку. Нейросеть начнёт прорисовывать поры на коже огромного носа, и это будет выглядеть отталкивающе. Для карикатуры лучше использовать эпитеты, относящиеся к художественной технике: «brush strokes» (мазки кисти), «ink lines» (чернильные линии), «flat design» (плоский дизайн).

Также стоит аккуратно использовать параметр хаоса (--chaos в Midjourney). Высокий хаос даст очень разнообразные, порой безумные результаты. Для поиска вдохновения это полезно, но если вам нужен конкретный результат, лучше держать этот параметр низким или вообще не трогать.

Вредно ли использовать негативные промты?

Вовсе нет, это наш спасательный круг. В Stable Diffusion поле Negative Prompt является обязательным для качественного результата. Что туда писать при создании шаржа? В первую очередь, то, что делает картинку «нормальной» или «страшной» в плохом смысле.

Впишите туда: realistic, photorealistic, photograph, ugly, deformed, extra fingers, blurry, low quality. Это подскажет нейросети, что мы хотим уйти от фотореализма в сторону арта, но при этом сохранить чистоту линий. В Midjourney это делается через параметр --no. Например: «–no photorealistic, ugly». Это отсекает львиную долю неудачных вариантов, где нейросеть пытается сделать человека слишком похожим на живого, что в сочетании с искажёнными пропорциями вызывает эффект «зловещей долины».

Сценарии использования

Зачем вообще нужны такие картинки? Спектр применения огромен. Это и оригинальная аватарка в соцсетях, которая сразу бросается в глаза, и принт на футболку в подарок другу, и даже стилизация для корпоративного чата. Шарж, созданный нейросетью, хорош тем, что его можно бесконечно править. Не понравился нос? Перегенерировали. Нужен другой фон? Изменили пару слов. Это серьёзное вложение времени на этапе обучения, но потом процесс генерации занимает секунды.

Популярные ошибки

Натыкаешься на одни и те же грабли — получаешь одинаково плохой результат. Главная ошибка новичков — противоречивые команды. Нельзя требовать одновременно «minimalism» и «highly detailed intricate background». Нейросеть просто сойдёт с ума. Выберите одно направление. Либо это лаконичный скетч на белом фоне, либо детальная картина маслом.

Вторая ошибка — отсутствие конкретики в эмоциях. Просто слово «face» даст вам стандартное, ничего не выражающее лицо. А шарж — это всегда эмоция, пусть и гипертрофированная.

Эксперименты с параметрами стилизации

В Midjourney есть параметр --s (stylize). Для шаржей с ним нужно быть осторожным. Низкие значения (50-100) дадут результат, более близкий к вашему промту и буквальному пониманию слов. Высокие значения (750-1000) дадут очень красивую, художественную картинку, но нейросеть может настолько увлечься «красотой», что забудет про саму суть карикатуры и сделает просто красивый портрет в стиле фэнтези. Оптимальный диапазон для шаржа — 250-400. Это позволяет сохранить баланс между креативностью алгоритма и вашим заданием.

Готовый рецепт успеха

Давайте соберем идеальный универсальный промт-конструктор. Он выглядит так:

[Ссылка на фото] + [Тип изображения: A funny caricature of…] + [Описание субъекта: man/woman with…] + [Ключевые особенности для преувеличения: big nose, huge eyes…] + [Действие или одежда] + [Стиль: pencil sketch/3d render/Disney style] + [Технические параметры].

Используя этот скелет, можно нанизывать на него любые идеи. Хотите шарж на кота? Пожалуйста:

A hilarious caricature of a fat ginger cat, eating lasagna, huge belly, tiny paws, smug face, cartoon style, bright colors

Хотите подколоть начальника?

Caricature of a boss sitting on a throne made of paperwork, angry face, steam coming out of ears, office background, satirical illustration style

Впрочем, никакая инструкция не заменит личного опыта. Нейросети обновляются, алгоритмы меняются, и то, что работало вчера, может потребовать корректировки завтра. Но понимание базовых принципов — игры с пропорциями, чёткого указания стиля и работы с весом изображения — останется актуальным ещё долго. Не бойтесь показаться смешными в своих запросах, ведь именно этого мы и добиваемся. Пусть ваши шаржи вызывают добрую улыбку, а процесс их создания станет увлекательным хобби, которое не только развлечёт друзей, но и прокачает ваши навыки общения с искусственным интеллектом.