Ещё пару лет назад нарисовать аниме-персонажа мог только художник с планшетом и парой сотен часов практики за плечами. Сегодня же нейросети вроде Midjourney творят чудеса — генерируют кадры, которые порой сложно отличить от работ опытного иллюстратора. Но вот в чём загвоздка: львиная доля новичков получает на выходе нечто невнятное, с кривыми пальцами, пустыми глазами и совершенно «мёртвым» лицом. Дело в том, что Midjourney по умолчанию тяготеет к фотореалистичной эстетике, и заставить нейросеть переключиться на аниме-стилистику — задача не из тривиальных. А чтобы результат вызывал не стыд, а восхищение, стоит разобраться в нюансах промптинга и стилевых настроек.
Почему Midjourney «не хочет» рисовать аниме?
Начать нужно с понимания механики. Midjourney обучалась на колоссальном массиве изображений — фотографий, цифровых рисунков, классических картин, — и аниме-арт в этом потоке занимал далеко не главное место. Отсюда и результат: без точных указаний нейросеть выдаёт нечто среднее между 3D-рендером и иллюстрацией из детской книжки. Конечно, начиная с пятой версии ситуация заметно улучшилась, однако «из коробки» добротный аниме-кадр получить по-прежнему сложно. Вся суть в том, что модель интерпретирует запрос буквально, и одно слово «anime» в промпте — это далеко не спасательный круг. Нейросети нужна контекстная подсказка: стиль конкретной студии, характер штриховки, палитра, тип освещения. Без этих деталей результат окажется довольно размытым.
Структура промпта для аниме-арта
Скелет запроса. Любой грамотный промпт для Midjourney строится по принципу «от общего к частному», но в случае с аниме порядок элементов приобретает особое значение. Первым идёт описание персонажа — пол, возраст, поза, выражение лица. Далее следует среда: интерьер, пейзаж, время суток. И уже в финальной части промпта стоит задать стиль, эстетику и технические параметры. Именно этот «хвост» запроса определяет, получится ли картинка похожей на кадр из «Атаки Титанов» или на заставку к детскому мультфильму. К слову, Midjourney считывает слова в начале промпта как более «весомые», поэтому самое важное нужно ставить ближе к старту.
Вот как это работает на практике. Допустим, нужен портрет девушки-воина в закатном свете. Промпт мог бы выглядеть так: «young female samurai with silver hair, intense gaze, holding a katana, standing on a cliff at sunset, cherry blossoms falling, anime style, Studio Ghibli aesthetic, soft cel shading, warm golden light, cinematic composition, —ar 16:9 —niji 6». Каждый элемент здесь выполняет конкретную функцию. «Anime style» задаёт общее направление, «Studio Ghibli aesthetic» сужает стилистику до узнаваемого почерка, а «soft cel shading» подсказывает нейросети технику заливки цветом, характерную для традиционной анимации. Ну и, конечно же, параметр —niji — тот самый режим, без которого всё остальное работает вполсилы.
Все лучшие нейросети мира теперь в твоём кармане! ⚡
Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.
Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL
Режим Niji — главное оружие
Отдельно стоит упомянуть Niji — специализированную модель Midjourney, которую разрабатывали совместно со Spellbrush, студией, глубоко погружённой в аниме-эстетику. Если основная модель Midjourney — это универсальный инструмент, то Niji — скальпель, заточенный именно под японскую иллюстрацию. Разница между результатами бросается в глаза буквально с первого поколения. В Niji персонажи получают характерные большие выразительные глаза, чистые контурные линии и ту самую «воздушность», которой грезят поклонники жанра. Текущая версия — Niji 6 — справляется даже со сложными динамичными сценами: поединки, полёты, эмоциональные крупные планы. Переключиться на этот режим довольно просто — достаточно добавить —niji 6 в конце промпта или выбрать соответствующий пункт в настройках сервера Discord.
Какие стили аниме можно эмулировать?
Спектр возможностей тут внушительный. Один из самых популярных запросов — стилистика Studio Ghibli. Тёплая акварельная палитра, мягкие тени, детальные пейзажи с бесконечной глубиной — всё это Midjourney воспроизводит с удивительной точностью, особенно если добавить в промпт фразы вроде «watercolor background» и «Hayao Miyazaki color palette». Впрочем, не стоит останавливаться на одном варианте.
Следующий важный стиль — Makoto Shinkai, автор «Твоё имя» и «Дитя погоды». Его почерк — это фантастическая работа со светом: лучи, пробивающиеся сквозь облака, блики на воде, насыщенные закаты с градиентом от пурпурного к золотому. Для эмуляции этого направления в промпт стоит вписать «volumetric lighting, lens flare, hyper-detailed sky, Makoto Shinkai style». Нейросеть ловит эти подсказки и начинает буквально «рисовать светом». Результат порой приковывает внимание так, что хочется поставить картинку на обои рабочего стола.
А вот для любителей более мрачного изысканного визуала подойдёт стилистика 90-х годов — эпоха «Ковбоя Бибопа», «Евангелиона» и «Берсерка». Буквально десятилетие назад воспроизвести этот ретро-стиль мог только художник-энтузиаст с глубоким знанием эпохи, но сейчас достаточно добавить «1990s anime aesthetic, VHS grain, muted colors, hand-drawn feel, cel animation». Зернистость плёнки, приглушённая цветовая гамма, чуть «грязный» контур — всё это Midjourney генерирует довольно уверенно. Тем более, что Niji 6 научилась работать с текстурами, имитирующими аналоговую анимацию.
Подводные камни при работе с лицами
Лица — самая щепетильная часть любого аниме-арта. И здесь всплывают типичные ошибки. Midjourney может «слить» глаза в один сплошной пятно, исказить пропорции или добавить слишком много реалистичных деталей, которые ломают аниме-эстетику. Как с этим бороться? Во-первых, стоит конкретизировать черты лица прямо в промпте: «large expressive eyes, small nose, detailed eyelashes, soft blush on cheeks». Во-вторых, параметр —stylize (или —s) играет колоссальную роль. При значении от 50 до 150 нейросеть следует промпту довольно точно, а вот при 750 и выше начинает «фантазировать» — и лица порой уплывают в нечто гротескное. Для аниме-портретов оптимальным диапазоном считается 100–250.
Нельзя не упомянуть и проблему рук. Это ведь бич не только Midjourney, но и практически всех генеративных моделей. В аниме-стиле ситуация чуть мягче, потому что стилизация позволяет «спрятать» мелкие огрехи. Но если персонаж держит оружие или музыкальный инструмент, пальцы всё равно могут превратиться в хаос. Небольшая хитрость — добавить в промпт «hands behind back» или «clenched fists», чтобы упростить задачу для нейросети. Да и в целом не стоит перегружать сцену мелкими деталями, если главная задача — получить чистый красивый кадр.
Негативные промпты и параметр —no
Многие обыватели в мире Midjourney забывают о существовании параметра —no, а ведь именно он способен спасти результат от наляпистости. Работает просто: после —no перечисляются элементы, которые нейросеть постарается исключить из изображения. Допустим, не хочется видеть реалистичные текстуры кожи — добавляешь —no photorealistic skin, 3D render, CGI. Надоели «лишние» пальцы? —no extra fingers, deformed hands. Хотя стопроцентной гарантии этот параметр не даёт, он заметно сужает диапазон «творчества» нейросети и направляет её в нужное русло. Кстати, для аниме-стиля довольно полезно исключать «realistic, photograph, western cartoon» — это помогает удержать эстетику в рамках японской школы.
Стоит ли экспериментировать с —chaos?
Параметр —chaos (значения от 0 до 100) отвечает за степень разнообразия в генерируемой сетке из четырёх изображений. При нулевом значении все четыре картинки будут довольно похожи друг на друга — удобно, когда уже нащупал нужную стилистику и хочешь выбрать лучший ракурс. А вот при —chaos 50 и выше нейросеть начинает экспериментировать: меняет композицию, палитру, даже настроение. Для аниме-арта это — настоящий кладезь неожиданных находок. Иногда из хаотичной генерации выскакивает такая изюминка, которую сознательно никогда бы не придумал. Но есть и ложка дёгтя: при высоком хаосе велик шанс получить четыре совершенно нерелевантных изображения. Поэтому оптимальный подход — начать с —chaos 15–25 и постепенно повышать, если результаты кажутся однообразными.
Соотношение сторон и композиция
Мелочь, которая меняет всё. Соотношение сторон кадра (—ar) напрямую влияет на то, как нейросеть выстраивает композицию. Для портретных аниме-артов классическим выбором будет —ar 2:3 или —ar 9:16 — вертикальный формат, в котором персонаж занимает большую часть кадра, а фон дополняет атмосферу, не перетягивая внимание. Для пейзажных сцен в духе Макото Синкая больше подойдёт —ar 16:9 — широкий кинематографический формат, позволяющий раскрыть глубину неба и перспективу. Ну, а квадратный —ar 1:1 — вариант для иконок, аватарок и стикеров. Казалось бы, всего лишь цифры, но именно от них зависит, куда нейросеть «посадит» персонажа и сколько пространства отдаст окружению.
Как описать освещение и настроение?
Антураж решает. Без грамотного описания света даже идеально составленный промпт даст плоскую безжизненную картинку. В аниме свет — это не просто техническая характеристика, а полноценный инструмент повествования. Мягкий рассеянный свет сквозь занавеску мгновенно создаёт ощущение уюта и ностальгии. Жёсткий контрастный свет снизу — тревогу, опасность. Для передачи этого в промпте стоит использовать конкретные фразы: «golden hour lighting» для тёплого вечернего сияния, «dramatic rim lighting» для эффектного контурного свечения, «soft ambient light through window» для камерных интерьерных сцен. К тому же, нейросеть хорошо реагирует на указание времени суток — «at dawn», «under moonlight», «overcast sky». Каждый такой штрих добавляет глубину и эмоциональный отклик.
Референсы через —sref и —cref
Относительно свежая функция, но уже незаменимая. Параметр —sref (style reference) позволяет «скормить» нейросети ссылку на изображение, стиль которого нужно воспроизвести. Это настоящий спасательный круг для тех, кто хочет получить серию картинок в единой эстетике. Нашёл в сети аниме-арт с идеальной цветовой гаммой — вставил ссылку после —sref, и Midjourney постарается перенять палитру, текстуры и общее настроение. Отдельно существует —cref (character reference) — инструмент для сохранения внешности персонажа между разными генерациями. Добавляешь ссылку на уже сгенерированного героя, и в следующем кадре он появится с теми же чертами лица, причёской и цветом глаз. Конечно, стопроцентного попадания ждать не стоит, но схожесть на уровне 80–90 процентов — вполне реалистичная цифра. Да и сами разработчики продолжают дорабатывать эту функцию с каждым обновлением.
Типичные ошибки новичков
Первая и самая распространённая — перегруженный промпт. Когда в один запрос пытаются впихнуть двадцать деталей, нейросеть теряется и выдаёт кашу из элементов. Стоит задуматься: действительно ли нужны одновременно и «cherry blossoms», и «neon city», и «ancient temple»? Каждый лишний объект размывает фокус. Вторая ошибка — игнорирование версии модели. Результат в Niji 5 и Niji 6 отличается кардинально: шестая версия лучше справляется с анатомией, освещением и мелкими деталями вроде складок на одежде. И третья — слепое копирование чужих промптов без понимания того, за что отвечает каждый элемент. Промпт — это не магическое заклинание. Это инструкция, и каждое слово в ней несёт вес.
Ещё одна частая проблема — отсутствие итерации. Многие ожидают идеального результата с первой попытки, а получив нечто приемлемое, но не совершенное, бросают. На самом деле профессиональный подход к работе с Midjourney — это цикл из пяти-десяти (а иногда и двадцати) генераций, в каждой из которых промпт понемногу корректируется. Убрал одно слово — картинка стала чище. Добавил «close-up» — лицо стало детальнее. Поменял —s 100 на —s 200 — появилась та самая «искра», которой не хватало. Этот процесс не сложный, но кропотливый. Терпение здесь — добротный союзник.
Готовые формулы промптов для разных жанров
Для романтической сцены формула может выглядеть так: «two anime characters, boy and girl, sitting on a rooftop at sunset, city skyline in background, cherry blossoms, warm golden light, soft focus, Studio Ghibli aesthetic, cel shading, —ar 16:9 —niji 6 —s 150». Здесь ведущую роль играет свет и атмосфера, а персонажи существуют внутри этого пространства как часть единой композиции.
Для боевого кадра подход совершенно иной: «anime warrior girl, mid-action pose, slashing with glowing sword, dynamic motion blur, dark stormy sky, lightning, intense expression, 1990s anime aesthetic, hand-drawn feel, dramatic lighting, —ar 2:3 —niji 6 —chaos 20 —s 100». Здесь на первый план выходит динамика — «mid-action pose» и «motion blur» подсказывают нейросети, что кадр должен «двигаться». А ретро-стилистика 90-х придаёт изображению ту самую колоритную грубоватость, которой так не хватает современным гладким иллюстрациям.
Ну, а для повседневного «слайс-оф-лайф» кадра сработает формула помягче: «anime girl reading a book in a cozy café, rain outside the window, warm interior lighting, cup of coffee on the table, Makoto Shinkai style, detailed background, soft reflections, pastel colors, —ar 3:4 —niji 6 —s 200». Особый интерес здесь вызывает указание на детализацию фона — «detailed background». Без этой фразы нейросеть часто размывает задний план, превращая его в абстрактное пятно, а с ней — прорисовывает каждую чашку на полке.
Что насчёт текста и логотипов на изображении?
Нужно отметить, что Midjourney по-прежнему неважно справляется с текстом на картинках. Попытка добавить в промпт «title text saying…» чаще всего приводит к набору бессмысленных иероглифов или искажённых латинских букв. Для аниме-стиля это особенно актуально, ведь многие хотят сгенерировать нечто вроде обложки манги или тайтл-карда к эпизоду. Совет простой — текст лучше добавлять потом, вручную, в Photoshop или Figma. Нейросети стоит доверить визуальную часть, а типографику — собственным рукам. Тем более, что подобрать подходящий шрифт в стиле аниме сейчас не составляет труда: бесплатных колоритных гарнитур в сети более чем достаточно.
Апскейл и постобработка
Сгенерировал удачный кадр — и что дальше? Разрешение стандартной генерации Midjourney — 1024×1024 пикселей (при квадратном формате). Для публикации в соцсетях этого хватит, но для печати или крупноформатных проектов — маловато. Встроенная функция Upscale увеличивает изображение, однако иногда при этом теряются мелкие детали или появляются артефакты. Внешние инструменты вроде Topaz Gigapixel или Real-ESRGAN справляются с этой задачей скрупулёзнее, сохраняя чёткость линий и текстур даже при увеличении в четыре раза. После апскейла картинку стоит прогнать через лёгкую цветокоррекцию — немного поднять контраст, усилить насыщенность на 5–10 процентов, добавить едва заметное виньетирование. Такие мелочи превращают «просто хорошую генерацию» в финальный арт, готовый к публикации.
Аниме в Midjourney — это не про удачу и не про магические промпты, скопированные с форума. Это про понимание того, как нейросеть «думает», какие слова для неё весомы, а какие пролетают мимо. Каждый параметр — от —niji до —chaos — тонкий рычаг, и стоит научиться чувствовать, когда и на сколько его повернуть. А главное — не бояться экспериментов. Ведь даже неудачная генерация может подсказать направление, о котором раньше и не задумывался. Удачи в освоении этого увлекательного самобытного инструмента — пусть каждый новый кадр радует глаз и вдохновляет на следующий.
