Использование параметра sref в Midjourney для точного копирования чужого стиля

Среди тысяч нейросетевых инструментов, заполонивших интернет за последние пару лет, Midjourney держится особняком — и не столько из-за качества картинок, сколько из-за довольно щепетильного подхода к стилизации. Многие пользователи грезят о том, чтобы воспроизвести конкретную манеру рисования: кто-то хочет «под Мёбиуса», кто-то — под обложки старых советских журналов, а кто-то просто натыкается на чужую генерацию в соцсетях и загорается идеей сделать нечто похожее. Раньше для этого приходилось скрупулёзно подбирать слова в промпте, комбинировать десятки описательных конструкций и всё равно получать лишь отдалённое сходство. Но с появлением параметра —sref ситуация изменилась кардинально, и разобраться в его механике стоит каждому, кто работает с Midjourney всерьёз.

Что такое sref и зачем он вообще нужен?

Грубая аналогия. Если обычный промпт — это словесное описание того, что нужно нарисовать, то —sref (сокращение от style reference) — это визуальная указка на то, как именно рисовать. Параметр принимает ссылку на изображение, и нейросеть вытягивает из него стилевые признаки: цветовую палитру, текстуру штрихов, характер освещения, общую «атмосферу» кадра. Дело в том, что текстовым описанием довольно сложно передать, например, ту самую приглушённую зернистость, свойственную японской анимации восьмидесятых. А вот скормив одну-единственную картинку в качестве style reference, можно получить удивительно близкий результат. И это не магия — это математика латентного пространства, хотя для обывателя разница невелика.

Стоит отметить важный нюанс: —sref работает иначе, чем —iw или обычный image prompt. Обычная ссылка на картинку в начале промпта заставляет Midjourney заимствовать содержание — композицию, объекты, позы. А вот style reference целенаправленно вычленяет именно стиль, стараясь не тянуть за собой сюжет исходника. Конечно, на практике граница размывается, и порой в результат просачиваются элементы оригинальной композиции. Но в целом инструмент справляется с задачей разделения формы и содержания довольно неплохо.

Синтаксис и базовая механика

Пользоваться параметром до смешного просто. В конце промпта, после описания сюжета, добавляется конструкция —sref URL, где URL — прямая ссылка на изображение. К слову, ссылок может быть несколько: нейросеть тогда «смешивает» стили, и результат получается гибридным. Вес каждой ссылки регулируется через двойное двоеточие с цифрой (по аналогии с мультипромптами). Вот, скажем, если нужно взять семьдесят процентов стиля из первой картинки и тридцать — из второй, конструкция будет выглядеть примерно так: —sref URL1::70 URL2::30. Кроме того, существует параметр —sw (style weight), который определяет, насколько сильно стилевая ссылка будет давить на итоговую генерацию. Значение по умолчанию — 100, но диапазон простирается от 0 до 1000. При нуле влияние ссылки практически стирается, а при тысяче стиль солирует настолько мощно, что текстовый промпт отходит на второй план.

Подводные камни тут всплывают быстро. Если исходное изображение содержит яркий узнаваемый объект — допустим, красный автомобиль на переднем плане — нейросеть может «зацепить» этот объект и начать вставлять красные пятна или автомобильные силуэты в генерации. Это связано с тем, что алгоритм не всегда идеально разделяет стиль и контент. Впрочем, при грамотном подборе исходника — где стиль доминирует над сюжетом — проблема сводится к минимуму.

Как подобрать правильный референс?

Задача не из лёгких. Ведь от качества исходной картинки зависит львиная доля результата. Первое, на что стоит обратить внимание, — «чистота» стиля. Если взять сложную иллюстрацию с десятком персонажей, детализированным фоном и обилием текстур, нейросеть может запутаться в том, какой именно признак считать стилевым. Гораздо лучше работают лаконичные изображения, где стилевая манера бросается в глаза: характерная палитра из четырёх-пяти цветов, узнаваемый тип мазка или специфическая геометрия форм. К тому же стоит учитывать разрешение: слишком маленькие картинки (менее 300 пикселей по длинной стороне) теряют текстурные детали, и нейросеть вытягивает из них только цвет.

Нельзя не упомянуть и про источники. Многие берут референсы прямо из Pinterest или Behance — и это работает. Но самый стабильный результат добротный получается тогда, когда ссылка ведёт на файл напрямую, а не на страницу с embedded-изображением. Discord иногда капризничает с внешними ссылками, поэтому опытные пользователи сначала загружают картинку прямо в чат Midjourney, копируют её URL из Discord CDN и уже эту ссылку используют в промпте. Мелочь, а нервов экономит прилично.

Стоит ли гнаться за точным копированием?

Вопрос неоднозначный. С одной стороны, параметр —sref действительно творит чудеса и позволяет воспроизвести чужую стилистику с пугающей точностью. С другой — полное копирование стиля конкретного художника поднимает целый пласт этических вопросов, о которых дизайнерский бомонд спорит уже не первый год. Midjourney, к слову, официально не запрещает использовать чужие работы в качестве style reference, но и не поощряет это. А вот некоторые площадки (вроде отдельных стоков и конкурсов) уже начали отклонять работы, подозрительно похожие на стиль конкретного живого автора.

На самом деле, куда продуктивнее использовать —sref не для слепого клонирования, а для стилистического исследования. Берёшь три-четыре референса от разных авторов, комбинируешь через весовые коэффициенты, добавляешь текстовые модификаторы — и на выходе получаешь нечто новое. Своё. Да, фундамент взят из чужих работ, но итоговая смесь уже несёт отпечаток твоих решений. Это же правило касается коммерческого применения: чем дальше итоговый стиль от конкретного узнаваемого оригинала, тем спокойнее можно спать.

Тонкая настройка через —sw

Параметр —sw заслуживает отдельного разговора. Ведь именно он определяет, насколько агрессивно нейросеть будет «пропитывать» генерацию стилем из референса. При значениях от 0 до 50 влияние ссылки едва заметно — картинка сохраняет «нативный» стиль Midjourney с лёгким привкусом чужой палитры. Диапазон от 50 до 200 — золотая середина, в которой стиль считывается отчётливо, но текстовый промпт всё ещё контролирует сюжет и композицию. А вот значения выше 500 — это уже территория экспериментов: промпт начинает «тонуть» в стиле, и порой вместо описанного сюжета получаешь абстрактную вариацию на тему референса. Красиво? Часто — да. Предсказуемо? Вовсе нет.

Для коммерческих задач не стоит перебарщивать: значение 100–150 даёт стабильно воспроизводимый результат, который легко масштабировать на серию изображений. Это важно, если нужно оформить, скажем, десяток баннеров в едином визуальном стиле. Тем более, что при высоких значениях —sw результаты начинают «плыть» от генерации к генерации — нейросеть каждый раз интерпретирует стиль чуть по-разному, и консистентность страдает.

Комбинация sref с другими параметрами

Midjourney — кладезь параметров, и —sref отлично сочетается с большинством из них. Особый интерес вызывает связка с —cref (character reference), появившимся позднее. Если —sref отвечает за стиль, то —cref фиксирует внешность конкретного персонажа. Вместе они позволяют создавать серии иллюстраций, где один и тот же герой появляется в едином стилевом оформлении от кадра к кадру. Для авторов комиксов, раскадровок и детских книг это — настоящий спасательный круг.

Далее стоит упомянуть параметр —stylize (или —s). Он регулирует общий уровень «художественности» генерации. При высоких значениях stylize нейросеть позволяет себе больше вольностей, что может конфликтовать с жёстким стилевым референсом. Поэтому, если задача — максимально точное воспроизведение чужого стиля, значение stylize лучше понизить до 50–80. Так нейросеть будет послушнее держаться заданного направления вместо того, чтобы «улучшать» картинку на свой вкус. Ну и, конечно же, —chaos никто не отменял: при нулевом хаосе все четыре варианта в сетке довольно похожи, а при высоком — разлетаются в разные стороны. Для поиска неожиданных трактовок стиля это полезно, но для продакшена лучше ставить chaos ниже 20.

Практический сценарий: от чужой картинки к своему стилю

Допустим, в ленте мелькнула иллюстрация с характерной эстетикой — мягкие пастельные градиенты, минимум деталей, крупные плоскости цвета и тонкие чёрные контуры. Работа приковывает внимание, и хочется создать нечто подобное для собственного проекта. Начать нужно с сохранения этого изображения и загрузки в Discord. После получения прямой ссылки формируется промпт: описание нужного сюжета, затем —sref [ссылка] —sw 120 —s 60. Первая генерация — разведка. По ней становится понятно, какие именно стилевые черты нейросеть «зацепила», а какие проигнорировала.

Если палитра считалась верно, а вот характерные контуры потерялись, стоит добавить в текстовый промпт уточнение: thin black outlines, flat color areas. Текстовые подсказки и style reference работают в связке, дополняя друг друга. Впрочем, бывает и обратная ситуация: нейросеть слишком буквально копирует композицию исходника, хотя нужен только стиль. В этом случае помогает снижение —sw до 70–80 или замена референса на другую работу того же автора, где композиция принципиально иная. Так нейросеть «понимает», что от неё хотят именно манеру, а не расположение элементов.

Частые ошибки и как их избежать

Самая распространённая промашка — использование скриншотов вместо оригинальных файлов. Скриншот неизбежно добавляет артефакты сжатия, интерфейсные элементы по краям, искажает цветопередачу. Нейросеть всё это «съедает» как часть стиля, и в результате генерации появляются странные рамки или серые полосы. Мелочь, которая раздражает.

Следующая ловушка — попытка использовать фотографию в качестве стилевого референса для иллюстрации. Технически это работает, но результат часто получается неоднозначным. Дело в том, что у фотографии «стиль» определяется совокупностью параметров камеры, освещения и постобработки, а Midjourney интерпретирует эти признаки довольно вольно. Если же задача — перенести фотографическую эстетику (скажем, плёночную зернистость Kodak Portra 400), то сработает куда лучше прямое указание в текстовом промпте, без —sref вовсе. А если всё-таки хочется использовать фото, не стоит забывать о параметре —sw в районе 60–80, чтобы нейросеть не пыталась превратить иллюстрацию в фотореалистичный рендер.

Ну, а третья ошибка — перегрузка промпта. Когда в одной строке соседствуют —sref с тремя ссылками, —cref, —ar 16:9, —chaos 40, —stylize 750 и ещё пара десятков слов описания, нейросеть начинает «разрываться» между противоречивыми указаниями. Результат — каша. Гораздо эффективнее итерационный подход: сначала закрепить стиль минимальным промптом, затем постепенно добавлять детали, фиксируя сид удачных генераций через —seed.

Этика и авторское право

Тема щепетильная, и обойти её стороной было бы нечестно. Формально стиль как таковой не охраняется авторским правом — ни в российском законодательстве, ни в американском. Охраняется конкретное произведение. Но между строк скрывается масса нюансов. Если сгенерированное изображение настолько похоже на работу конкретного художника, что средний зритель спутает одно с другим, — это уже тяготеет к недобросовестной конкуренции или введению в заблуждение. Тем более, что ряд художников (Грег Рутковски, Ким Юнг Ги, Карла Ортис) публично выступили против использования их работ для обучения и стилизации в нейросетях.

Многие считают, что раз нейросеть «вдохновляется» — значит, это то же самое, что человеческое вдохновение. Но на самом деле механика принципиально другая: модель математически раскладывает стиль на векторы и воспроизводит их с высокой точностью, чего человеческая рука физически не может. Впрочем, законодательство пока отстаёт от технологий, и чётких правил игры ещё нет. Безопаснее всего — использовать в качестве style reference свои собственные работы или изображения с открытой лицензией. Да и для развития собственного авторского почерка это гораздо полезнее.

Продвинутые приёмы: sref random и коды стилей

Отдельно стоит упомянуть функцию —sref random, которая появилась в пятой версии движка. Вместо конкретной ссылки нейросеть подставляет случайный стилевой вектор из своего латентного пространства. Результаты — непредсказуемые, но порой удивительно красивые. Это что-то вроде лотереи: из десяти попыток одна-две могут выдать стиль, о котором ты даже не мечтал. А понравившийся стиль фиксируется через числовой код (sref code), который можно сохранить и использовать повторно. В сообществе Midjourney целые каталоги таких кодов — пользователи делятся ими как рецептами.

Коды стилей — изюминка, которая превращает случайность в инструмент. Достаточно добавить —sref [числовой код] вместо ссылки на изображение, и нейросеть воспроизведёт тот самый стилевой вектор. Это удобно для командной работы: арт-директор подбирает стиль, фиксирует код и рассылает его всем исполнителям. Ведь код весит буквально пару байт, а несёт в себе внушительный объём стилистической информации. К слову, один и тот же код при разных версиях модели может давать слегка отличающийся результат, так что версию Midjourney тоже стоит фиксировать через —v.

Что насчёт конкуренции с другими нейросетями?

Midjourney — далеко не единственный генератор, предлагающий стилевую трансляцию. DALL-E 3 позволяет описывать стиль текстом, но отдельного параметра для визуального референса у него нет. Stable Diffusion через расширение IP-Adapter умеет нечто похожее, причём с более тонким контролем — но настройка этого инструмента довольно сложная процедура, требующая технических навыков. Firefly от Adobe тоже обзавёлся функцией Style Reference, но ограничивает её лицензионно чистыми изображениями из Adobe Stock.

И всё же Midjourney пока удерживает лидерство в балансе между простотой и качеством. Достаточно одной строчки в промпте, чтобы получить результат, который в Stable Diffusion потребовал бы получаса настройки конфигов. Да, гибкости меньше. Да, контроль не такой скрупулёзный. Но для большинства задач — от концепт-арта до оформления презентации — этого хватает с запасом. Тем более, что каждое обновление модели улучшает точность стилевого переноса.

Параметр —sref — мощный инструмент, и, как любой мощный инструмент, он требует аккуратности. Не стоит гнаться за идеальным клонированием чужого стиля: гораздо интереснее — и безопаснее — строить на чужом фундаменте собственный визуальный язык. Экспериментируйте с комбинациями, сохраняйте удачные коды, понижайте и повышайте —sw, добавляйте текстовые модификаторы. Со временем рука «набьётся», и даже случайные генерации через —sref random начнут попадать в цель с первого раза. Удачи в поисках своего стиля — пусть даже путь к нему начнётся с чужого.