Как использовать параметр cref в Midjourney для сохранения лиц

Любой, кто хотя бы пару вечеров провёл за генерацией картинок в Midjourney, рано или поздно натыкается на одну и ту же досадную проблему: персонаж, который так удачно получился в первом изображении, во втором уже выглядит совершенно другим человеком. Нос чуть шире, скулы сгладились, глаза поменяли форму — и вот перед тобой уже не тот самый рыцарь или деловая леди, а их дальний родственник. Для единичных артов это ерунда, но стоит только задуматься о серии иллюстраций, комиксе или визуальной айдентике бренд-персонажа, как непостоянство лиц превращается в настоящую головную боль. Именно для борьбы с этим нюансом команда Midjourney и ввела параметр —cref, а разобраться в его тонкостях стоит до того, как вы потратите десятки генераций впустую.

Что такое cref и зачем он вообще появился?

Немного контекста. До середины 2024 года у пользователей Midjourney не было ни одного штатного инструмента, который бы позволял «зафиксировать» внешность персонажа между разными промтами. Существовал параметр —sref (style reference), отвечавший за перенос стилистики изображения, но лицо он сохранял крайне посредственно. Народ изворачивался как мог: вставлял одно и то же референсное фото через image prompt, дописывал детальные описания черт, комбинировал seed-значения. Результат — нестабильный и непредсказуемый. А потом появился —cref, сокращение от character reference. Вся суть в том, что этот параметр говорит нейросети: «Вот персонаж, запомни его лицо и перенеси в новую сцену». И хотя инструмент далёк от идеала, он стал настоящим спасательным кругом для тех, кто работает с сериями изображений.

Синтаксис и базовая механика

Работает параметр довольно просто. В конце промта, после текстового описания, нужно добавить —cref URL, где URL — прямая ссылка на изображение персонажа, внешность которого требуется сохранить. Ссылку можно взять из ранее сгенерированной картинки в Discord (через «Copy Link» после апскейла) или загрузить собственное фото на любой хостинг с прямым доступом к файлу. К слову, использовать реальные фотографии людей тоже можно, хотя тут всплывают этические нюансы, о которых чуть позже. Само изображение-референс должно быть достаточно чётким, с хорошо различимым лицом — размытые фоны и слишком мелкие фигуры нейросеть «прочитает» с трудом.

Вместе с —cref идёт ещё один важный параметр — —cw (character weight). Он определяет, насколько строго Midjourney будет придерживаться внешности из референса. Значение задаётся от 0 до 100. При —cw 100 (стоит по умолчанию) нейросеть старается перенести и лицо, и одежду, и причёску, и общий силуэт. А вот при —cw 0 сохраняется только лицо — остальное Midjourney подбирает самостоятельно, ориентируясь на текстовую часть промта. Именно этот диапазон и даёт пространство для манёвра.

Стоит ли полагаться на cw 100?

Казалось бы, максимальное значение — максимальное сходство. Но не всё так однозначно. При cw 100 нейросеть цепляется буквально за каждую деталь референсного изображения, включая освещение, ракурс и даже фактуру одежды. Это удобно, если нужно продолжить серию в одном антураже: скажем, персонаж сидит за столом, потом встаёт, потом выходит из комнаты. Однако стоит задуматься о смене сцены — допустим, перенести того же героя из офиса на морской берег — и полная «привязка» начинает мешать. Нейросеть пытается втиснуть офисный костюм в пляжный сеттинг, а освещение тянет к холодным тонам, хотя вокруг палящее солнце. Ведь алгоритм не различает, что важно, а что второстепенно, — для него всё одинаково «весомо». Поэтому для смены обстановки опытные пользователи ставят cw в районе 30–50 и прописывают нужную одежду текстом.

Как выглядит промт на практике?

Допустим, вы сгенерировали портрет девушки с рыжими волосами и веснушками, результат вам понравился, вы сделали апскейл и скопировали ссылку на изображение. Теперь нужно поместить её в другую сцену. Промт может выглядеть примерно так: «A young woman reading a book in a cozy autumn park, golden light, fallen leaves —cref [ссылка] —cw 60». Нейросеть возьмёт черты лица из референса, но позволит себе вольности с причёской и одеждой, подстроив их под осенний парк. Нужно отметить, что Midjourney пока работает с промтами только на английском, поэтому текстовая часть всегда на этом языке, даже если интерфейс у вас русский. А вот параметры вроде —cref и —cw — языконезависимые, они просто технические флаги.

Ещё один нюанс, который многие упускают: в одном промте можно указать сразу несколько ссылок через —cref. Midjourney попытается «усреднить» черты из всех референсов, что иногда даёт интересные результаты, а иногда — откровенную кашу. Для сохранения конкретного лица лучше ограничиться одной ссылкой. Множественные cref-ы — это скорее инструмент для экспериментаторов, которые целенаправленно смешивают образы.

Подводные камни и типичные ошибки

Идеальный инструмент. Так думают новички — до первого разочарования. Дело в том, что cref не гарантирует стопроцентную идентичность лица. Midjourney всё-таки генеративная модель, а не графический редактор, выполняющий копирование «пиксель в пиксель». При смене ракурса (анфас → профиль) лицо может «поплыть». Особенно это бросается в глаза при переходе от крупного портрета к изображению в полный рост: чем меньше лицо в итоговом кадре, тем меньше деталей нейросеть воспроизводит. Да и стилистические сдвиги влияют ощутимо — если референс был в фотореалистичном стиле, а новый промт тяготеет к аниме, не стоит ждать чудес.

Распространённая ошибка — использовать в качестве референса групповое фото, на котором несколько лиц. Алгоритм попросту не понимает, на чьё лицо ориентироваться, и берёт «среднее арифметическое» со всех присутствующих. Результат выглядит странно. Другой промах — слишком стилизованный референс. Карикатура, пиксель-арт, чересчур «зашумлённый» арт с множеством деталей фона — всё это мешает cref вычленить именно лицевые черты. Самый надёжный референс — чистый портрет на нейтральном фоне, снятый фронтально или в лёгком повороте на три четверти.

cref против image prompt: в чём разница?

Многие путают параметр —cref с обычным image prompt, который ставится в начале промта через ссылку. И неудивительно — внешне конструкции похожи. Но работают они совершенно по-разному. Обычный image prompt влияет на всё изображение целиком: композицию, цветовую палитру, настроение, объекты. Нейросеть воспринимает его как визуальный «мудборд», от которого отталкивается при генерации. А —cref фокусируется исключительно на персонаже — его лице и (при высоком cw) одежде. Фон, ракурс, освещение cref игнорирует. Именно поэтому стоит разделять эти два подхода: image prompt для передачи атмосферы, cref — для передачи внешности.

К тому же, при одновременном использовании image prompt и —cref они не конфликтуют. Нейросеть «читает» их параллельно: берёт общую стилистику из image prompt и черты персонажа из cref. Такая комбинация — довольно мощный приём, когда нужно поместить конкретного героя в определённую визуальную вселенную. Но тут приковывает внимание один нюанс: если в image prompt тоже есть лицо, Midjourney может запутаться. Лучше подбирать безлюдные image prompt — пейзажи, интерьеры, текстуры.

Этические грани и реальные фотографии

Щепетильная тема. Технически ничто не мешает загрузить в —cref фотографию реального человека и генерировать его «двойника» в любых ситуациях. Midjourney справляется с этим вполне сносно, особенно при cw 80–100. Однако политика платформы на этот счёт становится всё жёстче: в условиях использования прописан запрет на создание deepfake-контента и изображений, нарушающих права конкретных людей. На практике автоматический модератор срабатывает не всегда, но риск бана аккаунта вполне реальный. Ну и, конечно же, этическая сторона: никто не хочет обнаружить собственное лицо в чужой генерации без согласия. Поэтому безопаснее всего работать с вымышленными персонажами, сгенерированными той же Midjourney.

Как добиться максимального сходства?

Тонкая настройка. Вот чем cref отличается от волшебной кнопки «сделай одинаково». Для максимального сходства между генерациями стоит придерживаться нескольких негласных правил, выведенных сообществом опытным путём. Во-первых, референсное изображение желательно создать в той же версии модели, в которой будут последующие генерации — переход с версии 5.2 на v6 может дать заметный сдвиг черт. Во-вторых, стиль промта лучше держать стабильным: если в референсе был фотореализм, не стоит резко переключаться на «oil painting» или «anime style». Ну и, наконец, чем проще и чище референс, тем лучше cref «считывает» лицо. Минимум аксессуаров, никаких масок, солнцезащитных очков или причёсок, закрывающих пол-лица.

Отдельно стоит упомянуть работу с параметром —seed. Хотя cref и seed — независимые механизмы, их совместное использование даёт чуть более предсказуемый результат. Фиксированный seed закрепляет «случайное зерно» генерации, и при одинаковом промте с одинаковым seed результат будет почти идентичным. А если к этому добавить —cref, шансы на стабильное воспроизведение внешности ещё возрастают. Впрочем, seed не панацея — даже малейшее изменение в тексте промта сбивает его работу.

Параметр cref в связке с другими флагами

Midjourney — это настоящий кладезь параметров, и многие из них отлично дополняют cref. Например, —sref (style reference) в паре с —cref позволяет одновременно перенести и стиль рисовки, и лицо персонажа. Выглядит это так: вы берёте арт в стилистике, допустим, Alphonse Mucha, загружаете его через —sref, а через —cref подкидываете своего персонажа. На выходе получается герой с нужными чертами лица, но в стилистике модерна. Красиво? Безусловно. Но есть ложка дёгтя: два референса одновременно — это два конкурирующих «источника правды» для нейросети, и она иногда не справляется с балансом. Лицо может деформироваться, подстраиваясь под стилистику. Выход — снижать —sw (style weight) до 30–50, чтобы стиль шёл мягким фоном, а не подавлял лицевые черты.

Ещё одна довольно популярная комбинация — —cref вместе с —ar (aspect ratio) и —chaos. Соотношение сторон влияет на кадрирование, а значит и на то, насколько крупным будет лицо в финальном кадре. При —ar 1:1 лицо занимает значительную часть изображения, и cref работает точнее. А при —ar 16:9, где персонаж помещается в широкую панораму, лицо «тает» в масштабе. Параметр chaos (от 0 до 100) добавляет вариативности в генерации, но при высоких значениях буквально «размывает» влияние cref. Для стабильных лиц лучше ставить chaos не выше 20.

Практические сценарии использования

Для чего же конкретно пригождается cref в реальной работе? Львиная доля запросов приходится на создание визуальных историй: комиксы, сториборды для коротких роликов, последовательности сцен для презентаций. Один и тот же персонаж проходит через несколько кадров, и без cref добиться хоть какой-то консистентности было бы невозможно. Второй по популярности сценарий — разработка бренд-маскотов. Компании всё чаще используют сгенерированных персонажей в маркетинговых материалах, и тут критически важно, чтобы «лицо бренда» узнавалось от баннера к баннеру.

Третий сценарий, менее очевидный, — это концепт-арт для инди-игр и визуальных новелл. Разработчики с ограниченным бюджетом генерируют десятки вариаций одного персонажа в разных позах, одежде и локациях, а потом дорабатывают результат в Photoshop. Без cref каждая новая генерация давала бы нового человека. С cref процесс ускоряется в разы, хотя ручная доводка всё равно нужна — нейросеть может чуть «сдвинуть» пропорции, и дизайнеру остаётся подогнать детали до финального единообразия. Кропотливо? Да. Но всё-таки быстрее, чем рисовать с нуля.

Что делать, если лицо всё-таки «поплыло»?

Даже при идеальном референсе и выверенных параметрах лицо может измениться. Это не ошибка пользователя — это природа генеративной модели. Но есть несколько приёмов, которые помогут минимизировать отклонения. Первый — повторная генерация. Банально, но эффективно: из четырёх вариантов, которые выдаёт Midjourney, обычно хотя бы один попадает достаточно близко к референсу. Второй приём — использование inpaint. После апскейла можно выделить область лица и перегенерировать только её, указав в промте —cref ещё раз. Результат зачастую точнее, чем при полной генерации с нуля.

И третий, самый скрупулёзный подход — создание нескольких референсов одного персонажа в разных ракурсах. Сначала генерируется анфас, потом профиль, потом три четверти — каждый раз с cref на предыдущую удачную версию. Получается маленькая «библиотека лиц», и для каждой новой сцены выбирается тот референс, ракурс которого ближе всего к нужному. Да, это требует времени. Но для коммерческих проектов, где каждое изображение идёт в печать или на сайт, такая подготовительная работа себя оправдывает с лихвой.

Ограничения текущей версии

Честность прежде всего. Параметр cref — не волшебная палочка, и его ограничения стоит знать заранее. На момент написания статьи (лето 2025 года) cref полноценно работает только в моделях Midjourney v6 и v6.1. Попытка использовать его со старыми версиями модели просто игнорируется — флаг не вызовет ошибку, но и эффекта не даст. Кроме того, cref плохо справляется с нечеловеческими персонажами. Антропоморфные животные, роботы с «лицами», фэнтезийные расы с нестандартными пропорциями — всё это пока за пределами его возможностей. Алгоритм заточен именно под человеческие лица, и выход за эти рамки приводит к непредсказуемым результатам.

Ещё одна ложка дёгтя — скорость. Генерация с —cref занимает ощутимо больше времени, чем без него, особенно в сочетании с —sref и высоким разрешением. На загруженных серверах (обычно вечером по московскому времени) ожидание может растянуться. Тем более, что бесплатные аккаунты получают пониженный приоритет в очереди. Кошелёк станет легче, если перейти на Pro-подписку, но для хобби-проектов это не всегда оправданно.

А ведь впереди — только улучшения. Midjourney активно развивает персонажную консистентность: тестируются встроенные «профили» персонажей, возможность привязать лицо к имени прямо в системе без ссылок, а также расширение cref на анимационные стили. Освоив работу с —cref сейчас, вы окажетесь на шаг впереди, когда появятся новые, ещё более гибкие инструменты. Удачи в генерациях — и пусть лица ваших персонажей остаются стабильными от кадра к кадру.