Как генерировать персонажей в стиле Disney через Midjourney

Мультфильмы Disney сопровождают нас буквально с первых лет жизни, и мало кто может сказать, что ни разу не мечтал увидеть себя — или кого-то из близких — в облике героя «Холодного сердца» или «Рапунцель». Ещё пару лет назад подобная затея требовала либо серьёзных навыков цифрового рисования, либо довольно внушительного бюджета на услуги иллюстратора. Сейчас же нейросеть Midjourney творит чудеса: за считаные минуты генератор выдаёт картинку, от которой приковывает внимание даже искушённого зрителя. Но чтобы результат не превратился в нечто среднее между карикатурой и фотобашем, стоит разобраться в нюансах правильного промта и тонкостях работы с самой платформой.

Почему именно Midjourney?

Нейросетевых генераторов изображений на рынке сегодня хватает — тут и DALL·E от OpenAI, и Stable Diffusion с его открытым кодом, и Leonardo AI с довольно щедрым бесплатным тарифом. Однако львиная доля пользователей, грезящих о диснеевской стилистике, всё-таки оседает именно в Midjourney. Дело в том, что эта нейросеть от природы тяготеет к художественной, «живописной» подаче. Цвета у неё насыщенные, контрасты мягкие, а детали — проработанные до мелочей. Даже без специальных указаний модель генерирует изображения, где свет ложится кинематографично, а текстуры кожи и волос выглядят убедительно. К тому же в пятой и шестой версиях движка появился заметный прорыв в понимании сложных стилевых референсов, так что слова «Disney style» или «Pixar aesthetic» нейросеть считывает куда точнее, чем конкуренты.

С чего начинается промт?

Структура запроса. Вот с неё и нужно начинать. Многие новички совершают одну и ту же ошибку — пишут что-то вроде «Disney princess» и ждут шедевра. Результат, разумеется, получается довольно размытым: нейросеть понимает, что речь о принцессе, но не знает ни возраста, ни цвета волос, ни настроения, ни окружения. Промт для Midjourney — это не поисковый запрос в Google. Это скорее сценарная ремарка, где каждое слово вносит лепту в финальную картинку. Начать нужно с описания самого персонажа: пол, возраст, выражение лица, поза. Далее следует стилистическая привязка — собственно, «Disney» или «Pixar 3D render». И венчает конструкцию техническая часть: соотношение сторон, версия модели, параметры стилизации.

Магия правильных слов

Настоящая изюминка работы с Midjourney — подбор лексики. Нейросеть реагирует не столько на смысл фразы в целом, сколько на отдельные токены, то есть слова-триггеры, которые запускают определённые визуальные паттерны. Вместо общего «Disney style» стоит попробовать формулировки поконкретнее. Одна из самых рабочих — «in the style of Disney Animation Studios», потому что она отсылает нейросеть к конкретной студии, а не к абстрактному понятию. Для объёмного рендера, напоминающего героев «Суперсемейки» или «Головоломки», хорошо срабатывает связка «Pixar 3D character render, subsurface scattering, ambient occlusion». А если хочется чего-то ближе к классическим рисованным мультфильмам — «Русалочке» или «Красавице и Чудовищу» — лучше указать «traditional Disney 2D animation, cel-shaded, hand-painted background».

Отдельно стоит упомянуть эмоции. Ведь персонажи Disney приковывают внимание именно выразительностью. Глаза — крупные, блестящие, с бликами. Улыбка — чуть преувеличенная, но живая. Поэтому в промте нет смысла ограничиваться словом «smiling». Гораздо эффективнее конструкция вроде «warm genuine smile, sparkling eyes, expressive face». И вот тут всплывает любопытный нюанс: порядок слов в промте тоже имеет значение. Midjourney придаёт больший вес токенам, расположенным ближе к началу. Так что самое важное — описание персонажа — ставить стоит первым, а технические параметры оставить на финал.

Какие параметры влияют на результат?

Задача не из лёгких. Ведь параметров у Midjourney набралось немало, и каждый меняет картинку порой до неузнаваемости. Первый и самый очевидный — —ar (aspect ratio), то есть соотношение сторон. Для портретного изображения персонажа в полный рост хорошо работает 2:3 или 9:16. Для «поясного» портрета — классическое 1:1 или 4:5. Следующий важный критерий — —stylize (или сокращённо —s). Этот параметр регулирует, насколько сильно нейросеть будет привносить собственную «художественность». При значении 0 результат получается максимально буквальным, при 1000 — модель берёт творческую свободу на себя. Для диснеевского стиля золотая середина лежит где-то в районе 250–500. Слишком низкое значение убивает ту самую мультяшную мягкость, а слишком высокое превращает персонажа в нечто сюрреалистичное.

Кстати, не стоит забывать про параметр —chaos. Он отвечает за вариативность результатов в рамках одной генерации. При низком хаосе (0–20) все четыре картинки в сетке будут довольно похожи друг на друга. При высоком (50–100) разброс окажется колоссальным — от почти фотореалистичного портрета до абстрактной стилизации. Для первых экспериментов разумно держать хаос на уровне 15–30: достаточно вариантов, чтобы выбрать лучший, но без откровенных «мутантов». Ну и, конечно же, версия модели. На момент написания текста актуальна шестая версия (v6.1), и именно она лучше всего справляется со стилизацией под анимацию. Впрочем, некоторые умельцы до сих пор переключаются на v5.2 для более «пластилиновой» текстуры.

Стоит ли использовать референсные изображения?

Безусловно. Это, пожалуй, один из самых мощных инструментов Midjourney, о котором обыватель часто не знает. Суть вот в чём: перед текстовым промтом можно вставить прямую ссылку на изображение, и нейросеть использует его как визуальный ориентир. Хочется, чтобы персонаж был похож на конкретного человека? Загружаешь фотографию через Discord, копируешь ссылку и добавляешь в начало запроса. Midjourney «считывает» черты лица, причёску, даже общий цветовой тон — и встраивает всё это в диснеевскую стилистику. Результат порой поражает: знакомое лицо, но будто сошедшее с кадра пиксаровского мультфильма.

Но есть и ложка дёгтя. Нейросеть не всегда корректно передаёт мелкие детали — родинки, форму бровей, разрез глаз. Иногда приходится делать три-четыре подхода, прежде чем результат начнёт напоминать оригинал. А если фотография низкого качества или снята при неудачном освещении, то модель и вовсе может проигнорировать референс. Поэтому для «портретных» генераций стоит выбирать фото с ровным светом, анфас или лёгкий ракурс в три четверти. Тем более что нейросеть лучше справляется с крупными планами лица, чем с ростовыми фотографиями, где детали размываются.

Типичные ошибки новичков

Промт-перегрузка. Вот первая и самая распространённая проблема. Человек, окунувшийся в мир нейросетевой генерации, норовит засунуть в один запрос всё сразу: и описание внешности, и задний план, и освещение, и ракурс, и три стилистических референса, и пять технических параметров. Midjourney от такого обилия теряется — она пытается угодить каждому токену и в итоге не угождает ни одному. Результат получается скомканным, с артефактами, со странным «наложением» стилей. Опытные пользователи давно усвоили простой постулат: промт должен содержать не больше 40–60 слов. А лучше — 25–35. Это кажется мало, но на самом деле вполне достаточно для описания добротного персонажа.

Вторая частая ошибка — игнорирование «негативных» указаний. В Midjourney v6 появился параметр —no, позволяющий исключить нежелательные элементы. Не хочется, чтобы у персонажа на голове появился случайный аксессуар? Достаточно дописать —no hat, crown, tiara. Без этого уточнения нейросеть, увидев слово «Disney princess», нередко «награждает» героиню диадемой по собственной инициативе. К слову, тот же параметр выручает, когда в кадре всплывают лишние руки или искажённые пальцы — извечная больная тема нейросетевой графики. Конструкция —no extra fingers, deformed hands не гарантирует идеала, но заметно снижает процент брака.

Как добиться «того самого» взгляда?

Глаза — это, пожалуй, главное достояние любого диснеевского персонажа. Огромные, выразительные, с бликами, которые делают взгляд «живым». И если в промте не уделить им внимания, нейросеть может сгенерировать вполне симпатичное лицо, но с «мёртвыми» глазами. Зрелище, мягко говоря, удручающее. Спасательный круг тут — конкретные формулировки: «big expressive eyes with light reflections, Disney-style eye highlights, glossy iris». Да и цвет радужки лучше указать явно. Вместо размытого «blue eyes» — «deep sapphire blue eyes» или «warm amber eyes with golden flecks». Детализация на таком уровне творит чудеса с итоговым результатом.

А что насчёт волос? Тут тоже есть свои подводные камни. Диснеевские волосы — это всегда объём, динамика, лёгкое движение, будто герой застыл на ветру. Просто написать «long brown hair» — скучно и непродуктивно. Гораздо лучше сработает формулировка «flowing chestnut hair with soft curls, wind-blown strands, volumetric rendering». Слово «volumetric» здесь особенно ценно, потому что оно подталкивает нейросеть к созданию объёмной, «трёхмерной» причёски вместо плоской текстуры.

Фон и окружение персонажа

Многие концентрируются исключительно на герое и напрочь забывают про антураж. А ведь именно задний план превращает портрет в полноценную «сцену» из мультфильма. Вспомните любой кадр из «Моаны»: бирюзовый океан, солнечные блики на воде, пальмовые листья. Или «Рапунцель» — башня, увитая плющом, мягкий вечерний свет и тысячи парящих фонариков. Без фона персонаж «висит» в пустоте, и магия Disney попросту не считывается. Стоит добавить в промт хотя бы пару слов о месте действия: «enchanted forest background», «cozy medieval village», «underwater coral reef scene». Нейросеть тут же подхватывает настроение и выстраивает палитру под окружение.

Впрочем, с фоном тоже не стоит перебарщивать. Если описание заднего плана получится длиннее описания самого персонажа, Midjourney может «переключить» фокус. И тогда вместо героя на первом плане получится детальный пейзаж с крошечной фигуркой где-то на периферии. Золотое правило — на фон выделять не больше четверти всего промта. Ну, а если задний план вообще не нужен, всегда можно указать «solid white background» или «simple gradient background». Это удобно. Ведь такие изображения потом легче вписать в коллаж или использовать для печати на мерче.

Как стилизовать под конкретный мультфильм?

Тонкий момент. Дело в том, что визуальный язык Disney менялся от десятилетия к десятилетию, и разница между стилистикой «Белоснежки» 1937 года и «Энканто» 2021-го — колоссальная. Если нужна отсылка к «золотой эре» — «Спящей красавице» или «Золушке» — в промте стоит упомянуть «classic Disney 1950s animation, soft watercolor backgrounds, ink outlines». Для эпохи «Ренессанса» (условно — от «Русалочки» до «Мулан») хорошо работает «Disney Renaissance style, rich color palette, dramatic lighting». Ну, а для современного пиксаровского 3D — «Pixar-style 3D character, Octane render, soft subsurface skin scattering».

Нужно отметить, что Midjourney не всегда чётко разграничивает эти подстили. Иногда модель смешивает элементы разных эпох, и получается нечто среднее — не совсем 2D, не совсем 3D, но вполне симпатичное. Если же нужна максимальная точность, выручает комбинация текстового промта с референсным изображением. Берёшь реальный кадр из нужного мультфильма, вставляешь ссылку, а в тексте описываешь своего персонажа. Нейросеть «впитывает» стилистику референса и переносит её на нового героя. Результат — почти как кадр из того же фильма, только с другим действующим лицом.

Постобработка и доработка

Сгенерировать изображение — это полдела. Дальше начинается этап, который терпеливый пользователь не пропускает, а ленивый — игнорирует. Во-первых, в самом Midjourney есть функция Upscale, увеличивающая разрешение выбранного варианта. В шестой версии апскейл работает довольно качественно, подтягивая детали и убирая мелкие артефакты. Во-вторых, существует функция Vary (Subtle) и Vary (Strong), позволяющая получить вариации понравившейся картинки — с минимальными или значительными изменениями. Это спасательный круг, когда изображение «почти идеальное», но хочется подправить какой-нибудь один элемент.

За пределами Midjourney добротный результат можно довести до ума в Photoshop или бесплатном Photopea. Убрать лишний палец (да, такое до сих пор случается), скорректировать цветовой баланс, добавить надпись — всё это занимает от силы десять-пятнадцать минут. К тому же для тех, кто хочет анимировать диснеевского персонажа, существуют отдельные сервисы вроде Runway ML или Pika Labs, способные «оживить» статичную картинку. Правда, до полноценного мультфильма тут ещё далеко, но короткий зацикленный клип с моргающим и улыбающимся героем — вполне реальная задача.

Пример рабочего промта

Теория без практики мало чего стоит, поэтому разберём конкретный пример. Допустим, нужен портрет молодой девушки в стиле современных мультфильмов Pixar. Промт может выглядеть примерно так: «A young woman with flowing auburn hair and bright green eyes, warm smile, freckles on her nose, wearing a cozy knitted sweater, Pixar 3D character render, soft studio lighting, shallow depth of field, pastel background —ar 2:3 —s 400 —v 6.1». Разберём по частям. Начало — описание внешности, максимально конкретное: рыжие волосы, зелёные глаза, веснушки. Дополняет образ деталь одежды — вязаный свитер. Затем идёт стилевая привязка («Pixar 3D character render»), световая схема («soft studio lighting») и параметр глубины резкости, который создаёт приятное размытие фона. Технические указания — соотношение сторон 2:3, стилизация на уровне 400, шестая версия модели.

Казалось бы — ничего сверхсложного. Но именно такая степень скрупулёзности отличает профессиональный результат от любительского. А если первый результат не устроит, стоит поиграть с формулировками: заменить «warm smile» на «playful grin», добавить «cinematic color grading» для более кинематографичной палитры или убрать параметр стилизации вообще, чтобы посмотреть, как модель справится без подсказки.

Этические и правовые нюансы

Нельзя не упомянуть и о щепетильной стороне вопроса. Disney — компания, которая трепетно защищает свою интеллектуальную собственность. Генерировать персонажей «в стиле Disney» для личного использования — аватарки, подарка другу, обоев на телефон — вполне допустимо. Но как только речь заходит о коммерческом применении — продаже принтов, мерча, использовании в рекламе — ситуация становится неоднозначной. Midjourney в своих условиях разрешает коммерческое использование сгенерированных изображений (при платной подписке), однако если на картинке угадывается конкретный запатентованный персонаж — Эльза, Микки Маус, Базз Лайтер — это уже территория авторского права Disney. И тут никакая нейросеть не спасёт от юридических последствий.

Да и с этической точки зрения стоит задуматься. Если генерируешь «диснеевский» портрет реального человека без его ведома — это как минимум некрасиво. Тем более что современные нейросети достигли такого уровня, когда сгенерированный образ сложно отличить от работы профессионального иллюстратора. Разумный подход — использовать технологию для собственного удовольствия, для арт-проектов с указанием авторства нейросети, для прототипирования дизайн-концепций. Но не для имитации чужих работ и не для введения аудитории в заблуждение.

Мир нейросетевой графики меняется с головокружительной скоростью: то, что казалось фантастикой год назад, сегодня доступно любому пользователю с подпиской за тридцать долларов в месяц. Кошелёк, конечно, станет чуть легче, но результат — целая галерея колоритных персонажей в любимом стиле — того определённо стоит. А со временем промты будут усложняться, руки — набиваться, и каждая новая генерация станет чуточку ближе к тому самому волшебству, за которое мы и любим Disney. Удачи в экспериментах — и пусть ваши нейросетевые герои получаются не хуже оригиналов.