Как правильно генерировать в Midjourney картинки без артефактов и ошибок

Шесть пальцев на руке, глаза, смотрящие в разные стороны, надпись на стене из символов несуществующего алфавита — знакомая картина для всех, кто хотя бы раз пробовал сгенерировать изображение в Midjourney. Нейросеть творит чудеса, когда дело касается атмосферы и настроения, но стоит приглядеться к деталям — и иллюзия рушится. Львиная доля пользователей бросает затею после первых же неудачных попыток, списывая всё на «глупость машины». А ведь дело почти всегда не в самой нейросети, а в том, как именно человек с ней разговаривает. Но чтобы этот разговор стал продуктивным, нужно разобраться в нескольких принципиальных нюансах — от структуры промпта до неочевидных настроек, которые большинство попросту игнорирует.

Почему Midjourney «ошибается» и при чём тут промпт?

Начать стоит с неприятной правды. Midjourney не понимает смысл слов так, как понимает его человек. Нейросеть оперирует статистическими закономерностями — она «знает», что рядом со словом «рука» часто оказывается пять пальцев, но это знание вероятностное, а не логическое. Отсюда и появляются лишние фаланги, сросшиеся зубы, деформированные уши. Дело в том, что модель при генерации проходит через множество шагов «шумоподавления», и на каждом из них принимает микрорешения — куда поставить линию, какой оттенок выбрать, как соединить два объекта. Чем расплывчатее инструкция, тем больше свободы у алгоритма. А свобода для нейросети — это почти всегда хаос в мелочах. Именно поэтому щепетильная работа над текстом запроса даёт куда больший эффект, чем бесконечное нажатие кнопки «перегенерировать».

Структура промпта: из чего он состоит

Промпт для Midjourney — это не просто описание картинки. Это скорее рецепт, где каждый ингредиент влияет на конечный результат. Первым и самым весомым элементом идёт основной субъект — то, что должно солировать в кадре. Скажем, «young woman with red hair» или «abandoned lighthouse on a cliff». Сразу за ним стоит расположить окружение и контекст: время суток, погоду, интерьер или ландшафт. Далее следует стилистическая часть — здесь указываются отсылки к конкретным художникам, фотографическим техникам или арт-направлениям. Ну и, наконец, технические параметры: соотношение сторон, версия модели, степень стилизации. Вроде бы ничего сложного. Но подводные камни кроются как раз в порядке и формулировке каждого из этих блоков.

Важный нюанс — Midjourney считывает начало промпта с большим «весом», чем хвост. Если поставить самое важное слово в конец длинного предложения, нейросеть может его попросту проигнорировать. К слову, именно этим объясняется классическая ошибка новичков: они пишут огромные простыни текста, описывая каждую пуговицу на костюме, а потом удивляются, что половина деталей потерялась. Не стоит перегружать запрос — двадцать-тридцать слов работают лучше, чем восемьдесят.

Как избавиться от лишних пальцев и деформаций тела?

Руки. Настоящий бич всех генеративных моделей. Буквально пару лет назад получить корректную кисть на изображении было практически невозможно, но сейчас ситуация изменилась — версии Midjourney v5 и v6 справляются с анатомией заметно лучше предшественников. И всё же проблема не исчезла полностью. Один из самых действенных приёмов — указывать в промпте конкретное действие рук: «hands folded on the table», «holding a coffee cup», «fingers interlocked». Когда нейросети задана чёткая поза, вероятность появления лишнего пальца снижается в разы. Ведь модель в таком случае опирается на конкретный набор референсов, а не фантазирует.

Отдельно стоит упомянуть параметр —style raw. Он снижает степень художественной «додумки» Midjourney, делая результат более фотографичным и менее абстрактным. При генерации портретов и фигур в полный рост этот параметр — настоящий спасательный круг. Да и для архитектурных сцен он тоже довольно полезен, потому что убирает ту самую «наляпистость», которая часто бросается в глаза на дефолтных генерациях. А если сочетать —style raw с невысоким значением стилизации (—stylize 50–150 вместо стандартных 100–1000), результат выйдет ещё чище.

Текст на изображении: возможно ли получить без ошибок?

Тяжёлый вопрос. Честный ответ — пока нет. Midjourney не умеет писать текст. Точнее, она умеет рисовать нечто похожее на буквы, но осмысленные слова получаются крайне редко и только самые короткие — два-три символа. Дело в том, что нейросеть воспринимает буквы как графические фигуры, а не как элементы письменности. Для неё «A» — это просто треугольник с перекладиной, а не первая буква алфавита. Многие считают, что достаточно написать в промпте «text saying HELLO» — и надпись появится. На самом деле в девяти случаях из десяти результат будет выглядеть как зашифрованное послание инопланетян.

Впрочем, обходной путь есть. Если надпись в кадре критически важна, лучше генерировать изображение без текста, а потом добавлять его в Photoshop, Figma или даже Canva. Это займёт пять-десять минут, но зрелище не будет удручающим. Кстати, в шестой версии Midjourney ситуация с текстом чуть улучшилась — короткие слова из трёх-четырёх букв иногда генерируются корректно, особенно если заключить нужное слово в кавычки прямо внутри промпта. Но полагаться на это всецело пока рано.

Негативные промпты и параметр —no

Midjourney не поддерживает полноценные негативные промпты в том виде, в каком они существуют в Stable Diffusion. Но один мощный инструмент всё же есть — параметр —no. Он указывает нейросети, чего в изображении быть не должно. Допустим, генерируется натюрморт, а на выходе появляются люди на заднем фонe — тогда стоит добавить «—no people, crowd, faces». Или при создании минималистичного интерьера всплывают лишние предметы декора — «—no clutter, ornaments» решит задачу.

Нужно отметить, что —no работает не как абсолютный запрет, а скорее как сильная рекомендация. Нейросеть снижает вес указанных понятий, но изредка всё равно протаскивает их в кадр — особенно если запретное понятие тесно связано с основным субъектом. Например, попросить «forest —no trees» — это примерно как заказать борщ без свёклы. Технически можно, но результат будет неоднозначный. Тем более что алгоритм понимает «деревья» как неотъемлемую часть «леса» на уровне своей обученной модели мира.

Версия модели и скрытые настройки

Не все знают, но от выбора версии модели зависит буквально всё. Midjourney v4 тяготеет к стилизованным иллюстрациям, v5 — к фотореализму, v5.2 добавила улучшенную обработку лиц и текстур, а v6 (и её подверсия 6.1) сделала колоссальный шаг вперёд в понимании сложных сцен с несколькими персонажами. Переключение между версиями осуществляется параметром —v 6.1 в конце промпта. И вот здесь кроется довольно частая ошибка: люди используют устаревшую версию по умолчанию, не подозревая, что в настройках аккаунта можно задать актуальную модель.

Следующий важный критерий — параметр —chaos. Он определяет, насколько сильно будут различаться четыре варианта в сетке. Значение «0» даёт четыре почти одинаковые картинки, «100» — четыре совершенно разных интерпретации промпта. Для чистой безартефактной генерации лучше держать chaos в диапазоне от нуля до двадцати. Высокие значения хороши для мозгового штурма и поиска идей, но качество отдельных деталей при этом заметно страдает. К тому же с высоким хаосом нейросеть чаще вольно обращается с анатомией — а ведь именно от неё мы и пытаемся уберечься.

Стоит ли использовать референсные изображения?

Безусловно. Это один из самых мощных инструментов в арсенале Midjourney, и при этом довольно недооценённый. Суть проста: перед текстовым промптом можно вставить ссылку на изображение, и нейросеть будет ориентироваться на его стилистику, цветовую палитру или композицию. Параметр —iw (image weight) регулирует степень влияния — от 0.5 до 2. При значении 2 результат будет максимально близок к референсу, при 0.5 — лишь слегка напоминать его.

Зачем это помогает бороться с артефактами? Дело в том, что референс сужает «пространство возможностей» для нейросети. Когда модель видит конкретную фотографию человека с правильными пропорциями, она гораздо реже генерирует анатомические абсурды. Это особенно хорошо работает для портретов и предметной съёмки. А вот для абстрактного арта референс может сыграть злую шутку — нейросеть начнёт механически копировать элементы вместо того, чтобы интерпретировать задачу творчески. Здесь, как и везде, нужен баланс.

Масштабирование без потерь: upscale и его подводные камни

Получить добротную миниатюру — полдела. Увеличение до рабочего разрешения — вот где часто всплывают ошибки, которых не было видно на превью. Midjourney предлагает несколько режимов апскейла: стандартный (кнопка U), тонкий (subtle) и креативный (creative). Стандартный просто увеличивает изображение с минимальными изменениями. Тонкий слегка дорабатывает текстуры. А креативный — перерисовывает детали, добавляя новые элементы, которых изначально не было.

И вот тут ложка дёгтя. Креативный апскейл иногда добавляет артефакты вместо того, чтобы убирать их. Появляются лишние текстуры на коже, странные узоры на одежде, дублирование мелких объектов на заднем плане. Не стоит использовать creative upscale для портретов и изображений с мелким текстом — лучше ограничиться subtle-вариантом. А если разрешение всё ещё недостаточное, на помощь приходят внешние инструменты вроде Topaz Gigapixel AI или встроенного апскейлера в Photoshop. Да, кошелёк станет легче из-за подписки на дополнительный софт, но качество того стоит.

Что насчёт сложных сцен с несколькими персонажами?

Задача не из лёгких. Чем больше действующих лиц в кадре, тем выше вероятность, что Midjourney начнёт «сливать» их друг с другом — буквально. Сросшиеся руки, перетекающие друг в друга силуэты, лица с чертами обоих персонажей одновременно. Это связано с тем, что модели сложно разделять несколько семантически близких объектов в одном пространстве. Два человека для неё — это скорее «группа людей», чем «персонаж А» и «персонаж Б».

Обходной маршрут существует, хотя и требует терпения. Во-первых, стоит чётко разграничивать персонажей по внешним признакам: «a tall man in a black suit standing next to a short woman in a red dress». Контрастные описания помогают нейросети «развести» фигуры в пространстве. Во-вторых, можно добавить пространственные указатели: «on the left», «in the foreground», «behind the table». Ну и, конечно же, параметр —ar (aspect ratio) играет роль — широкоформатное соотношение вроде 16:9 или 3:2 даёт больше физического места для размещения нескольких фигур, и они реже наползают друг на друга.

Промпт-инженерия: хитрости бывалых

Опытные пользователи Midjourney со временем вырабатывают собственный добротный набор приёмов, и некоторые из них заслуживают истинного внимания. Один из самых эффективных — использование слов-«усилителей качества». Фразы вроде «highly detailed», «8K resolution», «professional photography», «sharp focus» не просто украшают промпт — они реально подталкивают модель к генерации более проработанных текстур. Midjourney обучена на миллионах изображений, среди которых подписи к фотографиям с фотостоков играли важнейшую роль. А на стоках эти слова сопровождают именно качественные снимки.

Отдельно стоит упомянуть параметр —seed. Каждая генерация в Midjourney имеет свой номер-зерно (от 0 до 4294967295). Если нашлась удачная композиция, но хочется слегка подкорректировать детали, можно зафиксировать seed и менять только текст промпта. Так изображение будет эволюционировать постепенно, без резких скачков. Это особенно полезно при создании серии однородных иллюстраций — например, для лендинга или презентации, где все картинки должны выглядеть так, будто их рисовал один художник.

Ещё один кладезь возможностей — мультипромпты с весами. Midjourney позволяет разделять части запроса двойным двоеточием и назначать каждой части свой вес. Например, «beautiful garden::2 old stone wall::1 morning light::1.5» говорит нейросети, что сад важнее стены, а утренний свет — где-то между ними. Этот приём творит чудеса, когда нужно расставить приоритеты в сложной сцене и не допустить, чтобы второстепенный элемент перетянул на себя внимание.

Частые ошибки и как их обойти

Одна из самых распространённых ловушек — слишком абстрактный язык в промпте. Слова вроде «красивый», «классный», «крутой» для нейросети не значат практически ничего. Они слишком размыты. Вместо «beautiful landscape» гораздо эффективнее написать «misty mountain valley at dawn with golden light filtering through pine trees». Конкретика — лучший друг чистой генерации. Чем точнее описание, тем меньше нейросети приходится додумывать самостоятельно, а значит, меньше шансов на артефакты.

Следующая частая ошибка — противоречивые инструкции. «Realistic photo of a cartoon character» или «dark bright room» ставят модель в тупик, и она выдаёт визуальную кашу. Человеку такие противоречия очевидны, но многие допускают их неосознанно, особенно когда добавляют стилистические теги в конце длинного промпта, не проверяя совместимость. Не стоит смешивать фотореализм с мультяшной стилизацией в одном запросе — лучше сделать две отдельные генерации.

Ну, а третья классическая проблема — игнорирование соотношения сторон. По умолчанию Midjourney генерирует квадратные изображения (1:1). Но если задуман горизонтальный пейзаж, а формат остался квадратным, нейросеть будет вынуждена «утрамбовывать» композицию, и появятся искажения по краям. Для портретов хорошо подходит 2:3 или 3:4, для пейзажей — 16:9, для обложек — 7:4. Мелочь, казалось бы, но на финальный результат влияет колоссально.

Внешние инструменты постобработки

Даже самый скрупулёзный промпт не гарантирует идеального результата с первого раза. И это нормально. Профессионалы, работающие с Midjourney на коммерческих проектах, всегда закладывают этап постобработки. Самый очевидный инструмент — Adobe Photoshop с его генеративной заливкой, которая позволяет точечно перерисовать проблемные участки. Шестой палец, странная тень, артефакт на фоне — всё это убирается за пару минут встроенным ИИ Photoshop, и выглядит результат куда естественнее, чем при бесконечном реролле в самом Midjourney.

К тому же существуют специализированные сервисы вроде Magnific AI, способные не только увеличивать разрешение, но и «додумывать» детали — текстуру кожи, переплетение ткани, структуру камня. Результат бывает впечатляющий, хотя и не сильно ударит по кошельку только при наличии подписки с хорошим запасом кредитов. Впрочем, для разовых задач хватает и бесплатных альтернатив — того же Upscayl с открытым исходным кодом.

Работа через Discord против веб-интерфейса

Буквально пару лет назад Discord был единственным способом взаимодействия с Midjourney. Сейчас у сервиса появился полноценный веб-интерфейс на midjourney.com, и разница между двумя подходами заметна. Веб-версия удобнее для новичков — интуитивная панель, история генераций под рукой, быстрое редактирование промптов. Но опытные пользователи нередко возвращаются в Discord. Ведь именно там доступны самые свежие экспериментальные функции, бот реагирует быстрее в часы пиковой нагрузки, да и сообщество в тематических каналах подскажет решение быстрее любого гугла.

Есть и чисто практический нюанс: в Discord можно использовать команду /describe, загружая готовое изображение, чтобы нейросеть сама сгенерировала для него текстовый промпт. Это бесценный инструмент обратного инжиниринга. Нашёл в сети изображение с нужной стилистикой — загрузил его в бот — получил четыре варианта промпта, которые (теоретически) воспроизведут похожий результат. На практике точного совпадения не будет, но направление движения становится куда яснее.

Midjourney — инструмент с грандиозным потенциалом, но, как и любой инструмент, требует практики и понимания внутренней логики. Артефакты, ошибки в анатомии и текстовый мусор на картинках — не приговор, а всего лишь следствие поверхностного подхода к формулировке запросов. Немного терпения, пара десятков экспериментов с параметрами и осознанная работа со структурой промпта — и генерации начнут радовать чистотой и детализацией. Удачи в освоении этого удивительного инструмента — результаты точно не заставят себя ждать.