Как использовать стиль Midjourney в Stable Diffusion: настройка моделей и промпты

Среди генеративных нейросетей Midjourney давно завоевала репутацию «художника с характером» — её картинки узнаёшь моментально по мягкой кинематографичной подсветке, детализированным текстурам и какому-то почти осязаемому объёму. Многие авторы грезят о похожем результате, но при этом хотят работать локально, без подписки и без ограничений Discord-бота. Ведь Stable Diffusion — штука открытая, гибкая, да и кошелёк от неё не страдает ежемесячно. Однако просто скачать базовую модель и вбить промпт «in the style of Midjourney» — затея провальная. Картинка получится блёклой, плоской, а порой и откровенно неряшливой. Но добиться того самого фирменного «миджорневского» лоска всё-таки можно, если разобраться в тонкостях настройки моделей, правильных чекпоинтах и грамотном построении промптов.

Все топовые нейросети в одном месте

Почему Stable Diffusion «из коробки» не рисует как Midjourney?

Вопрос не праздный. Дело в том, что архитектура у двух нейросетей принципиально разная, хотя обе опираются на диффузионный подход. Midjourney тренировалась на тщательно отобранном датасете, пропущенном через внутренние фильтры компании, а её веса закрыты от публики наглухо. Stable Diffusion же — проект с открытым исходным кодом, и базовая модель (будь то версия 1.5 или SDXL) обучена на куда более «широком» массиве изображений. Отсюда и разница: SD-модель умеет практически всё, но ничего — на уровне того отточенного стиля, которым славится MJ. К тому же дефолтный сэмплер и стандартные настройки CFG Scale в Automatic1111 или ComfyUI заточены под универсальность, а не под конкретную эстетику. Вся суть в том, что Midjourney — это не просто модель, а целый пайплайн из модели, постобработки и скрытых «стилевых примесей», которые разработчики встраивают на серверной стороне.

Чекпоинты — фундамент стилизации

Начать нужно с выбора правильного чекпоинта. Это самый важный шаг, и именно здесь львиная доля новичков спотыкается. Базовая SD 1.5 для имитации Midjourney годится слабо — слишком «сырой» результат на выходе. А вот кастомные модели, обученные энтузиастами на изображениях с характерной эстетикой, творят чудеса.

Один из самых популярных вариантов — Deliberate. Эта модель тяготеет к реалистичной живописности с мягким светом и глубокими тенями, что довольно близко к тому, как Midjourney v5 обрабатывает портреты и пейзажи. Далее стоит обратить внимание на DreamShaper — добротный универсальный чекпоинт, который на удивление хорошо справляется с фэнтезийной стилистикой и детализацией фонов. Нельзя не упомянуть Juggernaut XL, если работа ведётся на базе SDXL: этот чекпоинт выдаёт изображения с той самой «журнальной» чёткостью и насыщенностью цвета, за которую и ценят Midjourney. Ну и, наконец, существует модель с говорящим названием Midjourney Diffusion (или её вариации на CivitAI), натренированная буквально на выдаче MJ-бота. Впрочем, качество таких «прямых клонов» неоднозначное — иногда они перенимают стиль, а иногда просто копируют артефакты.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Стоит ли связываться с LoRA и текстуальной инверсией?

Безусловно. Если чекпоинт — это фундамент, то LoRA-адаптеры — та самая изюминка, которая доводит картинку до нужной кондиции. LoRA (Low-Rank Adaptation) весит обычно от 10 до 200 мегабайт и накладывается поверх основной модели, корректируя стиль без полной переобучки. На CivitAI сейчас можно найти десятки LoRA, обученных конкретно под эстетику Midjourney v4, v5 и даже v6. Принцип работы довольно простой: скачиваешь файл, кладёшь его в папку models/Lora, а в промпте активируешь конструкцией вроде <lora:midjourney_v6:0.7>, где число после двоеточия — сила влияния адаптера. Тем более что с весом LoRA стоит экспериментировать: при значении 1.0 стилизация порой получается чрезмерной, наляпистой, а при 0.4–0.5 эффект может оказаться едва заметным. Золотая середина обычно лежит в районе 0.6–0.8, но для каждого чекпоинта цифра своя.

Текстуальная инверсия (Textual Inversion) работает иначе — она «вшивает» стилевой концепт прямо в текстовый энкодер через специальный токен. Встречается реже, чем LoRA, но иногда выручает, особенно когда нужно совместить несколько стилей в одном изображении. Да и весит такой эмбеддинг совсем мало — обычно несколько килобайт.

Настройка параметров генерации

Модель выбрана, LoRA подключена. Что дальше? А дальше начинаются нюансы, которые отличают посредственную картинку от той, что натыкаешься в галерее и невольно останавливаешься. Во-первых, CFG Scale — параметр, который определяет, насколько строго модель следует промпту. Для «миджорневской» эстетики оптимальное значение обычно лежит между 5 и 8. При CFG выше 10 картинка становится перенасыщенной, контрастной до рези в глазах — Midjourney так никогда не делает. Во-вторых, выбор сэмплера. Euler a и DPM++ 2M Karras дают наиболее близкий к MJ результат: плавные градиенты, минимум шума на больших однородных поверхностях. Количество шагов (steps) стоит держать в диапазоне 25–40 — меньше даст недоработанные детали, больше не прибавит качества, зато ощутимо замедлит генерацию.

Разрешение — ещё один подводный камень. Midjourney генерирует в собственных внутренних разрешениях, а потом апскейлит. В SD стоит начинать с 512×512 (для моделей 1.5) или 1024×1024 (для SDXL), а затем использовать апскейлер — например, 4x-UltraSharp или ESRGAN через вкладку «Extras» в Automatic1111. Именно на этапе апскейла проявляются те самые микродетали — поры кожи, текстура ткани, блики на металле, — которые и создают фирменное ощущение Midjourney.

Как строить промпт «по-миджорневски»?

Промпт. Тут многие ошибаются сильнее всего. Ведь в Midjourney работает своя внутренняя «грамматика» — короткие фразы через запятые, ключевые слова-модификаторы в конце, минимум синтаксических связок. И хотя Stable Diffusion тоже понимает подобный формат, есть критические отличия, которые стоит учитывать.

Структура промпта для имитации MJ-стиля в SD выглядит примерно так: сначала идёт описание главного объекта сцены, затем — детали окружения и освещения, а «хвост» промпта отводится под стилевые модификаторы. К слову, именно модификаторы вносят основную лепту в стилизацию. Выражения вроде «cinematic lighting», «volumetric fog», «8k uhd», «detailed textures», «soft diffused light» — всё это толкает модель в сторону той самой кинематографичной подачи. Отдельно стоит упомянуть модификатор «intricate details» — он работает практически на любом чекпоинте и заставляет нейросеть прорисовывать мелочи, которые базовая генерация обычно «замыливает».

А вот негативный промпт — это то, о чём новички забывают, а зря. В Midjourney негативного промпта как такового нет (если не считать параметр —no), а в SD он играет колоссальную роль. Грамотно составленный негативный промпт убирает типичные артефакты: размытые руки, лишние пальцы, мутные задники. Классическая «база» для негативного промпта включает «bad anatomy, bad hands, blurry, low quality, watermark, text, deformed» — и это тот минимум, без которого даже лучший чекпоинт будет спотыкаться.

Пример рабочего промпта

Теория — это прекрасно, но без конкретики толку мало. Допустим, хочется получить портрет в стиле Midjourney v5: женщина в средневековом платье на фоне замка, золотой час, кинематографичный свет. Промпт мог бы выглядеть так: «a woman in medieval dress standing near a castle, golden hour, cinematic lighting, volumetric light rays, intricate embroidery details, soft bokeh background, 8k uhd, photorealistic, film grain, detailed skin texture». В негативный промпт стоит добавить: «cartoon, anime, painting, bad anatomy, blurry, low resolution, watermark, oversaturated». Модель — DreamShaper или Deliberate, LoRA — midjourney_v5 с весом 0.7, CFG — 7, сэмплер — DPM++ 2M Karras, шагов — 30. Такой набор настроек даёт на удивление близкий к Midjourney результат, хотя, конечно, стопроцентного совпадения ждать не стоит.

Стоит отметить: Midjourney при генерации автоматически «улучшает» промпт пользователя, дополняя его скрытыми модификаторами. В Stable Diffusion всю эту работу приходится проделывать вручную — и именно в этом кроется как сложность, так и свобода.

Роль апскейлеров и постобработки

Сгенерировать картинку — полдела. Midjourney славится тем, что её выдача выглядит «готовой» — хоть сейчас в портфолио или на обложку. В Stable Diffusion подобного эффекта без постобработки добиться довольно сложно. Первый этап — апскейл. Встроенный в Automatic1111 модуль «Hires. fix» позволяет увеличить разрешение прямо в процессе генерации, при этом модель «дорисовывает» детали, а не просто растягивает пиксели. Сила денойза (Denoising strength) в Hires. fix — критически важный параметр. При значении выше 0.6 модель начинает «выдумывать» лишнее и может серьёзно изменить композицию. Оптимум — 0.3–0.5.

Второй этап — внешняя постобработка. Многие авторы, которые добиваются на CivitAI и Reddit поразительного сходства с Midjourney, признаются, что прогоняют результат через лёгкую цветокоррекцию в Photoshop или Lightroom. Буквально несколько движений: чуть приподнять тени, слегка увести баланс белого в тёплую сторону, добавить едва заметное зерно плёнки. Это те мелочи, которые приковывают внимание к «миджорневским» картинкам, и воспроизвести их программно не так уж сложно. Впрочем, если возиться с редакторами нет желания, можно поискать LoRA, имитирующие пост-обработку — такие тоже существуют, хотя их эффективность неоднозначна.

Какие ошибки всплывают чаще всего?

Типичная ловушка. Новичок скачивает пять LoRA, три чекпоинта и два набора эмбеддингов, загружает всё разом — и получает кашу из стилей, где ни один не солирует. Не стоит перегружать пайплайн: один добротный чекпоинт плюс одна LoRA — вот рабочая формула. Если хочется совместить два адаптера, общий вес их влияния лучше держать в пределах 1.0 (например, 0.5 + 0.5), иначе артефакты неизбежны.

Ещё одна распространённая ошибка — слепое копирование промптов из Midjourney. Дело в том, что текстовый энкодер CLIP, который использует SD, обрабатывает текст иначе, чем внутренний энкодер MJ. Некоторые слова, которые в Midjourney работают как «волшебные триггеры» (например, «—stylize 750» или «—chaos 30»), в Stable Diffusion ровным счётом ничего не значат. Это же правило касается параметров «—ar» и «—v» — они специфичны исключительно для бота в Discord. В SD соотношение сторон задаётся через разрешение, а «версия стиля» — через чекпоинт.

И ещё один нюанс, о котором редко говорят. Midjourney v6 научилась на удивление хорошо работать с текстом на изображениях — надписи выходят ровными, читаемыми. Stable Diffusion с текстом по-прежнему справляется плохо, даже SDXL. Если в промпте есть слова в кавычках, рассчитывая получить надпись на картинке, результат скорее всего разочарует. Для таких задач текст лучше накладывать вручную, в графическом редакторе.

ComfyUI или Automatic1111?

Вопрос интерфейса — штука щепетильная. Многие считают, что для стилизации под Midjourney лучше подходит Automatic1111, потому что большинство гайдов написаны именно для него. Но на самом деле ComfyUI даёт куда больше контроля над пайплайном генерации. В нём можно выстроить нодовую схему, где чекпоинт загружается отдельно, LoRA подключается на определённом шаге, а апскейл происходит через отдельную ветку с собственными параметрами. Да, порог входа выше. Но и результат — скрупулёзнее.

Впрочем, для первого знакомства со стилизацией Automatic1111 (или его современный форк — Forge) вполне достаточно. Вкладка «txt2img», поле промпта, выпадающий список моделей, ползунки CFG и Steps — всё интуитивно. А вот когда захочется тонкой настройки — управления шумом на конкретных шагах, смешивания двух чекпоинтов в определённой пропорции, условной логики в генерации — тогда переход на ComfyUI себя оправдает.

Тонкости работы с SDXL

Отдельного разговора заслуживает SDXL — новое поколение Stable Diffusion с удвоенным размером модели и значительно улучшенным качеством генерации. Базовый SDXL сам по себе уже ближе к Midjourney, чем старая SD 1.5: цвета насыщеннее, композиции сложнее, детализация на голову выше. Однако «из коробки» SDXL всё ещё тяготеет к несколько «цифровому», стерильному виду, тогда как Midjourney умеет создавать ощущение аналоговой, почти плёночной картинки. Здесь на помощь приходят кастомные SDXL-чекпоинты — Juggernaut XL, RealVisXL, Proteus. Каждый из них привносит свой колорит, и стоит потратить вечер, чтобы протестировать хотя бы два-три из них на одном и том же промпте.

К тому же для SDXL появились собственные LoRA, обученные на выдаче Midjourney v6. Весят они побольше (от 50 до 400 мегабайт), но и результат внушительный. Особый интерес вызывает связка Juggernaut XL + MJ v6 LoRA (0.65) + DPM++ 2M Karras + CFG 6 — эта комбинация в сообществе получила негласное прозвище «бедный человек Midjourney», и надо сказать, прозвище вполне заслуженное. Результат, конечно, не стопроцентная копия, но разницу заметит только тренированный глаз.

Что насчёт скорости и железа?

Ложка дёгтя. Вся эта красота требует вычислительных ресурсов. Для комфортной работы с SD 1.5 и LoRA достаточно видеокарты с 6 гигабайтами видеопамяти — скажем, RTX 3060. Но SDXL-модели при генерации в разрешении 1024×1024 съедают уже 8–10 гигабайт VRAM, а с включённым Hires. fix — ещё больше. На карте с 8 Гб (RTX 4060 или 3070) работать можно, но придётся включать оптимизации: —medvram или —lowvram в аргументах запуска Automatic1111. Генерация при этом замедляется, иногда в полтора-два раза. А если хочется «полной свободы» — без компромиссов и ожидания — то RTX 4090 с 24 Гб видеопамяти остаётся мечтой, которая, впрочем, серьёзно бьёт по бюджету.

Все топовые нейросети в одном месте

Альтернатива для тех, у кого слабое железо, — облачные сервисы вроде Google Colab, RunPod или Vast.ai. Аренда мощной видеокарты на час-два не сильно ударит по кошельку, зато позволит протестировать тяжёлые SDXL-модели без апгрейда собственного компьютера.

Промпт-инженерия: тонкости, которые меняют всё

Вес слов. В Stable Diffusion можно управлять «важностью» каждого слова в промпте через скобки: (слово:1.3) усиливает влияние, а (слово:0.7) — ослабляет. Midjourney такого механизма не имеет, и потому пользователи MJ часто даже не подозревают о его существовании. А ведь именно эта функция позволяет добиться точечной стилизации. Скажем, если хочется усилить «кинематографичность» без перекоса в нереалистичность, можно написать (cinematic lighting:1.4), при этом оставив (photorealistic:1.0) на стандартном уровне.

Ещё один приём — промпт-шедулинг, или смена промпта на определённом шаге генерации. В ComfyUI это делается нативно через ноды, а в Automatic1111 — через синтаксис [слово1:слово2:0.5], где 0.5 означает, что на первой половине шагов модель «видит» первое слово, а на второй — второе. Это позволяет, к примеру, задать грубую композицию одними терминами, а детализацию — совсем другими. Техника не самая простая, но результаты стоят потраченного времени.

Стилизация Stable Diffusion под Midjourney — процесс не сложный, но кропотливый, требующий готовности экспериментировать и не бояться неудачных генераций. Зато когда правильный чекпоинт встретится с грамотным промптом и верно подобранной LoRA, картинка на экране заставит остановиться и присмотреться — а это ведь и есть главная цель любого визуального контента. Удачи в экспериментах, и пусть каждая сгенерированная картинка радует не меньше, чем результат из самого Midjourney.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *