Настройка качества и детализации: как работает скрытый параметр d в Midjourney

Среди тех, кто давно и плотно работает с Midjourney, бытует негласное правило: чем глубже копаешь в настройки, тем интереснее результат. Львиная доля пользователей ограничивается привычными параметрами вроде —q, —s и —ar, даже не подозревая, что за кулисами генерации скрывается кое-что ещё. Речь о параметре —d — так называемом «seed diversity» или, если угодно, скрытом рычаге детализации, о котором в официальной документации сказано до обидного мало. А ведь именно он способен превратить размытую картинку в добротное изображение с проработанными текстурами. Но чтобы не наломать дров, стоит разобраться в механике этого параметра подробнее.

Что скрывается за буквой «d»?

Путаница вокруг этого параметра возникла не на пустом месте. Дело в том, что в ранних версиях Midjourney буква «d» отвечала за так называемый diversity score — степень разброса между четырьмя вариантами в сетке. Чем выше значение, тем сильнее отличались изображения друг от друга. Но со временем разработчики переосмыслили подход, и в более поздних моделях (начиная примерно с версии 5.1) параметр стал влиять на внутреннюю глубину деталей при фиксированном сиде. Проще говоря, нейросеть получала подсказку: насколько скрупулёзно ей стоит прорабатывать мелкие элементы — морщины на коже, прожилки листьев, текстуру ткани. И вот тут-то начинается самое интересное.

Формально —d принимает целочисленные значения. Диапазон менялся от версии к версии, но чаще всего пользователи оперируют числами от 0 до 100. Нулевое значение вовсе не означает, что картинка получится «голой» — скорее, нейросеть распределит вычислительный ресурс равномерно, без акцента на текстурах. А вот при значениях ближе к 80–100 алгоритм бросает все силы на проработку деталей, иногда жертвуя общей композицией. Впрочем, об этом чуть позже.

Чем «d» отличается от «q»?

Вопрос закономерный. Ведь параметр —q тоже вроде бы про качество. На самом деле разница довольно существенная. Параметр качества —q регулирует количество шагов диффузии — грубо говоря, сколько раз нейросеть «перерисовывает» изображение, уточняя его на каждом проходе. При —q 2 Midjourney тратит вдвое больше вычислительных ресурсов (и времени), но картинка необязательно становится детальнее в плане текстур. Она становится точнее — лучше соответствует промту, меньше артефактов, стабильнее композиция.

А вот —d работает иначе. Этот параметр не увеличивает число шагов. Он смещает приоритеты внутри каждого шага. Представьте двух художников, которым дали одинаковое время на картину. Один рисует широкими мазками, следит за балансом цвета и светотенью. Второй же с маниакальной дотошностью выписывает каждую чешуйку на драконьей шкуре, каждый блик на кольчуге. Вот —q — это количество времени, а —d — характер художника. Именно поэтому комбинация обоих параметров даёт наиболее впечатляющий эффект: больше шагов плюс акцент на деталях.

Практический эксперимент с разными значениями

Сухая теория мало что даёт без практики. Я провёл серию генераций с одним и тем же промтом — «a weathered stone castle on a cliff, morning fog, cinematic lighting» — при фиксированном сиде 42 и разных значениях —d. Результаты оказались красноречивыми. При —d 0 замок выглядел вполне достойно, но камни на стенах были, скажем так, «обобщёнными» — ровная текстура без характера. Туман тоже получился однородным, больше похожим на молочную заливку, чем на живую дымку.

При значении 30 ситуация начала меняться. На стенах проступили трещины, кладка стала различимой, а в тумане наметились слои — где-то гуще, где-то прозрачнее. Ну, а при —d 75 картина преобразилась кардинально. Каждый камень обзавёлся собственной фактурой, на выступах карниза появились следы лишайника, а туман расслоился на три-четыре плоскости с разной плотностью. Выглядело впечатляюще. Но была и ложка дёгтя: при значении 100 нейросеть настолько увлеклась мелочами, что потеряла целостность композиции. Замок как бы «утонул» в собственных текстурах, а взгляд зрителя не находил точки опоры.

Когда высокая детализация вредит?

Парадокс, но чрезмерная проработка деталей — не всегда благо. Это связано с тем, что человеческий глаз воспринимает изображение иерархически: сначала силуэт, потом крупные цветовые пятна, затем средний план и лишь в конце — текстуры. Когда все уровни детализации «кричат» одновременно, возникает визуальный шум. К тому же, при высоких значениях —d нейросеть нередко «додумывает» мелкие элементы, которых в промте не было. Появляются лишние узоры на одежде, дополнительные архитектурные элементы, а у портретов — странные артефакты на коже (вроде избыточных пор или рельефных морщин там, где их быть не должно).

Не стоит гнаться за максимальными цифрами ради самого факта. Для портретной фотографии, к примеру, оптимальный диапазон лежит где-то в районе 40–60. Этого достаточно, чтобы кожа выглядела живой, волосы — не слипшейся массой, а глаза получили приятную глубину. А вот для пейзажей и архитектуры планку можно смело поднимать до 70–80. Тем более что каменные стены, природные текстуры и водная гладь от повышенной детализации только выигрывают.

Связка с параметром «—s» и стилизацией

Отдельно стоит упомянуть взаимодействие —d с параметром стилизации —s. Вся суть в том, что стилизация отвечает за «художественную вольность» нейросети — насколько свободно она интерпретирует промт. При высоком —s (скажем, 750 и выше) Midjourney добавляет драматичное освещение, насыщенные цвета и «кинематографичную» атмосферу. И вот когда к этому подмешивается высокий —d, результат может быть двояким.

С одной стороны, получается невероятно богатая картинка — словно кадр из блокбастера, снятый на дорогую оптику с идеальным грейдингом. С другой — нейросеть начинает «фантазировать» на уровне микротекстур, и эти фантазии не всегда совпадают с ожиданиями. Я натыкался на случаи, когда при комбинации —s 1000 —d 90 портрет человека обрастал такими фактурными деталями, что лицо напоминало восковую фигуру из музея мадам Тюссо — технически безупречно, но жутковато. Золотая середина, которую я для себя вывел эмпирически: если —s выше 500, то —d лучше держать в пределах 50. И наоборот — при низкой стилизации детализацию можно накручивать смелее.

Как правильно подбирать значение?

Рецепта на все случаи жизни не существует. Однако за несколько месяцев экспериментов у меня сложился довольно рабочий алгоритм. Во-первых, стоит определиться с жанром. Для концепт-арта и иллюстраций, где важна читаемость силуэта, достаточно —d 20–40. Во-вторых, для фотореалистичных сцен — интерьеры, архитектура, предметная съёмка — оптимально —d 50–70. Ну и, наконец, для макрофотографий (насекомые, ювелирные изделия, капли воды) имеет смысл поднимать до 80–90, потому что именно в макро текстуры солируют.

Ещё один нюанс, о котором мало кто задумывается. Параметр —d по-разному ведёт себя в зависимости от разрешения выходного изображения. При стандартном разрешении (1024×1024) высокие значения детализации дают плотную, насыщенную картинку. Но если после генерации использовать апскейл — встроенный или внешний вроде Topaz Gigapixel — избыточная детализация может обернуться шумом, который усилитель интерпретирует как текстуру и начнёт «растягивать». В итоге вместо чётких прожилок на мраморе получаешь мыльную кашу. Так что перед апскейлом значение —d лучше немного снизить — примерно на 15–20 пунктов от привычного.

Скрытый параметр или всё-таки устаревший?

Справедливости ради нужно отметить неоднозначный статус этого параметра. Команда Midjourney никогда официально не продвигала —d как полноценный инструмент. В документации он мелькает вскользь, а в некоторых версиях и вовсе ведёт себя непредсказуемо. Многие считают, что в шестой версии движка (V6) его влияние минимально, а результат зависит исключительно от промта и —q. Но на практике разница видна невооружённым глазом — особенно на сложных органических текстурах: древесная кора, мех животных, потрескавшаяся краска.

Кстати, есть ещё одна тонкость. Параметр —d лучше всего раскрывает себя в связке с конкретным сидом. Без фиксированного —seed результат генерации и так каждый раз разный, и отследить влияние детализации становится довольно сложно. А вот когда сид зафиксирован, различия между —d 20 и —d 70 бросаются в глаза моментально. Это как сравнивать две фотографии одного здания — одну снятую смартфоном, другую среднеформатной камерой Hasselblad. Сюжет тот же, но глубина совершенно другая.

Комбинации, которые работают лучше всего

За время работы с Midjourney я перебрал десятки комбинаций и выделил несколько связок, которые стабильно дают приятный результат. Для кинематографичных портретов отлично зарекомендовала себя формула —q 2 —s 400 —d 55 — кожа получается живой, но без пугающей гиперреалистичности, а фон красиво размывается, сохраняя при этом текстурные намёки. Для архитектурных визуализаций неплохо работает —q 2 —s 250 —d 70 — стены, полы и потолки обретают ту самую «тактильность», когда хочется провести рукой по экрану.

Для фантазийных иллюстраций — драконы, магические леса, космические станции — я обычно ставлю —s 750 —d 35. Тут важнее атмосфера, чем скрупулёзная проработка каждой чешуйки. Да и сам жанр фэнтези тяготеет к живописности, а не к фотографической точности. А вот для предметной съёмки (часы, украшения, гаджеты на белом фоне) детализация — настоящий спасательный круг. Значение —d 85 в связке с —q 2 превращает простую генерацию в нечто, напоминающее студийный каталожный снимок. К тому же, на таких изображениях особенно хорошо видны блики на металле и преломления света в стекле.

Подводные камни и частые ошибки

Главная ошибка новичков — ставить максимальные значения всех параметров одновременно. Логика понятна: «хочу самое лучшее». Но нейросеть работает не так. При —q 2 —s 1000 —d 100 алгоритм получает взаимоисключающие инструкции — одновременно быть максимально «художественным» и максимально «точным в деталях». Результат зачастую непредсказуемый, а генерация занимает ощутимо больше времени. Кошелёк тоже станет легче, ведь каждая такая генерация сжигает внушительное количество GPU-минут.

Ещё одна распространённая промашка — использовать высокий —d для абстрактного арта. Казалось бы, больше деталей — больше визуального богатства. Но абстракция живёт за счёт цветовых пятен, ритма форм и «воздуха» между элементами. Когда каждый мазок прорабатывается до мельчайших подробностей, теряется сама суть абстракции. Изображение начинает напоминать не картину Ротко, а скорее увеличенный под микроскопом образец горной породы. Красиво — безусловно. Но совсем не то, чего ожидал автор промта.

Стоит ли использовать «—d» в 2025 году?

Вопрос неоднозначный. С выходом каждой новой версии движка Midjourney всё больше берёт на себя, автоматически подбирая баланс между стилизацией и детализацией. И всё же ручной контроль никто не отменял. Для тех, кто воспринимает генерацию изображений не как баловство, а как рабочий инструмент — для дизайнеров, иллюстраторов, архитекторов — параметр —d остаётся ценным рычагом тонкой настройки. Ведь именно мелкие нюансы отличают «ещё одну красивую картинку» от изображения, которое клиент примет с первого раза.

Нужно отметить, что сообщество Midjourney на Discord регулярно обсуждает этот параметр, и энтузиасты выкладывают сравнительные сетки с разными значениями. Стоит заглянуть в каналы #prompt-craft и #tips-and-tricks — там можно найти настоящий кладезь практических наблюдений, собранных сотнями пользователей. К слову, некоторые умельцы комбинируют —d с кастомными стилями через —sref, добиваясь совершенно удивительных результатов, где авторский стиль художника сочетается с фотографической детализацией.

Эксперименты с —d — это тот случай, когда потраченное время окупается сторицей. Не стоит бояться пробовать нестандартные значения, фиксировать сид для сравнения и вести собственный журнал генераций. Пройдёт пара недель, и подбор идеальной комбинации параметров из щепетильного квеста превратится в интуитивный навык. А результат — те самые изображения с «вау-эффектом» — порадует и заказчиков, и собственное чувство прекрасного. Удачи в экспериментах.