Что делать, если нейросеть Midjourney генерирует странные картинки

Ни один инструмент для генерации изображений пока не научился читать мысли — и Midjourney тут не исключение. Казалось бы, формулируешь запрос чётко, подбираешь слова со скрупулёзной точностью, а на выходе получаешь нечто среднее между сюрреалистическим коллажем и детским кошмаром. Лишние пальцы на руках, расплывшиеся лица, предметы, вросшие друг в друга, — зрелище порой удручающее. Многие считают, что виновата сама нейросеть, но на самом деле львиная доля подобных «артефактов» всплывает из-за ошибок в промте, неверных настроек или банального непонимания логики, по которой работает алгоритм. А значит, разобраться в причинах и подводных камнях стоит до того, как разочарование возьмёт верх.

Почему Midjourney выдаёт не то, что ожидалось?

Дело в том, что нейросеть не «понимает» язык так, как его понимает человек. Каждое слово в промте она переводит в набор числовых векторов, и уже из этого математического супа формируется изображение. Одно и то же слово может тяготеть к совершенно разным визуальным ассоциациям в зависимости от контекста и соседних слов. К слову, английское слово bark — это и кора дерева, и лай собаки. И нейросеть вполне способна смешать оба значения в одну картинку, выдав дерево с собачьей мордой. Звучит смешно, но именно такие нюансы и порождают странные результаты. Ведь алгоритм не догадывается, что именно вы имели в виду — он работает с вероятностями, а не со смыслом.

Отдельно стоит упомянуть проблему избыточности. Когда промт перегружен деталями, нейросеть пытается уместить всё и сразу, и в итоге ни одна деталь не получает достаточно «внимания». Результат — каша из образов, наложенных друг на друга. Обратная ситуация тоже не редкость: слишком короткий запрос из двух-трёх слов оставляет алгоритму чрезмерную свободу интерпретации. И он ею пользуется. Иногда — довольно причудливо.

Промт как фундамент результата

Вся суть в том, что качество сгенерированной картинки на 70–80 процентов зависит от грамотного текстового запроса. Многие новички начинают с описаний в духе «красивый пейзаж с горами и рекой», а потом удивляются, что горы выглядят как пластилиновые, а река уходит в небо. Нейросеть не различает «красивое» и «некрасивое» — для неё это пустые абстракции. Гораздо лучше она реагирует на конкретные стилистические указания: имя художника, техника исполнения, освещение, ракурс. Вместо расплывчатого «красивый закат» стоит попробовать что-то вроде golden hour landscape, soft ambient lighting, oil painting style, muted warm palette. Разница бросается в глаза буквально с первой генерации.

Структура промта. Не менее важный нюанс — порядок слов внутри запроса. Midjourney отдаёт приоритет тому, что стоит ближе к началу строки. Если в самом начале указать «cat in a space suit on Mars», а в конце добавить «photorealistic», то стилистика может «размыться» под давлением сюжетных элементов. А вот если стиль вынести вперёд — photorealistic photo of a cat in a space suit — результат окажется куда ближе к ожиданиям. Этот приём довольно простой, но многие им пренебрегают. Ну и, конечно же, не стоит забывать про негативные промты (параметр —no), через который можно явно исключить нежелательные элементы: лишних людей, текст на картинке, искажённые руки.

Стоит ли менять версию модели?

Однозначно да. И вот почему. Каждая новая версия Midjourney — это, по сути, совершенно другая нейросеть с иным «пониманием» мира. То, что в версии 4 выглядело криво и неестественно, в версии 5.2 может генерироваться без каких-либо артефактов. А версия 6, которая появилась в конце 2023 года, и вовсе произвела маленькую революцию в работе с текстом и детализацией лиц. Если вы до сих пор работаете на старой версии, странные картинки — это не баг, а ожидаемое поведение устаревшей модели. Переключение между версиями делается одной командой: /settings, после чего в интерфейсе можно выбрать нужный вариант.

Кстати, не все версии одинаково хороши для разных задач. Niji — специализированная модель — лучше справляется с аниме-стилистикой и иллюстрациями. Стандартная же модель тяготеет к фотореализму и живописи. Попытка генерировать аниме-персонажа через стандартную модель пятой версии нередко даёт жутковатый результат: гипертрофированные глаза на реалистичном лице. Подбор правильной модели под конкретную задачу — это тот самый спасательный круг, который вытягивает из пучины странных генераций.

Параметры генерации и их влияние

Тонкие настройки. За качество итоговой картинки отвечают не только слова промта, но и технические параметры, которые можно указать через двойное тире. Один из самых популярных — —stylize (сокращённо —s). Значение по умолчанию равно 100, но диапазон тянется от 0 до 1000. Чем выше число, тем больше «художественной вольности» позволяет себе нейросеть. При значении 750–1000 она начинает интерпретировать запрос весьма свободно, добавляя декоративные элементы, меняя композицию, усиливая контрасты. Если результат выглядит чересчур вычурным или далёким от задумки — стоит снизить —s до 50 или даже до 0.

Следующий важный критерий — параметр —chaos. Он управляет степенью разнообразия между четырьмя вариантами в одной генерации. При значении 0 все четыре картинки будут похожи друг на друга. При значении 100 — разлетятся по стилю и содержанию в разные стороны. Многие ставят —chaos 80 «для вдохновения», а потом жалуются на непредсказуемый результат. Но ведь именно его они и попросили. Тем более что хаос и качество — понятия ортогональные. Для коммерческих задач, где нужен предсказуемый добротный результат, значение —chaos лучше держать в районе 10–25.

Ну, а про соотношение сторон (—ar) забывают чаще всего. По умолчанию нейросеть генерирует квадрат 1:1. Если же вам нужен горизонтальный баннер или вертикальный постер, квадратный формат буквально «сжимает» композицию, и персонажи начинают наезжать друг на друга, а пейзажи теряют глубину. Простое указание —ar 16:9 или —ar 2:3 иногда решает проблему странного расположения объектов на картинке — безо всяких изменений в самом промте.

Анатомические ужасы: руки, лица, пальцы

Шесть пальцев на руке. Классика жанра. Буквально пару лет назад эта проблема преследовала все без исключения генеративные модели, и Midjourney не стояла особняком. Нейросеть «видит» в обучающей выборке тысячи фотографий рук, но каждая — под своим углом, с разным освещением, в разном масштабе. Алгоритму довольно сложно вывести из этого хаоса устойчивое правило: «у человека пять пальцев». Он оперирует текстурами и формами, а не анатомическим атласом.

Впрочем, в версии 6 и особенно 6.1 ситуация заметно улучшилась. Но даже сейчас при определённых ракурсах — вроде крупного плана кистей рук на переднем плане — артефакты всё ещё всплывают. Что тут можно сделать? Во-первых, стоит избегать промтов, где руки становятся центральным элементом композиции (например, «close-up of hands holding a crystal ball»). Во-вторых, помогает параметр —style raw, который снижает «декоративность» и заставляет модель точнее следовать промту. Ну и, наконец, если генерация почти идеальна, но подвела одна рука — на помощь приходит функция Vary (Region), позволяющая перегенерировать только выделенный фрагмент изображения.

Как бороться со «вросшими» предметами и нарушенной логикой?

Знакомая картина: просишь «девушку, сидящую на скамейке в парке», а получаешь фигуру, буквально вросшую в спинку скамейки, с ногами, уходящими сквозь сиденье. Или кошку, у которой хвост плавно перетекает в ветку дерева. Это связано с тем, что нейросеть не строит трёхмерную модель сцены — она рисует плоскую картинку, пиксель за пикселем, ориентируясь на статистические закономерности. Понятие «объект А находится НА объекте Б» для неё — всего лишь совпадение текстур в определённой зоне.

Проверенный приём — разделение промта на смысловые блоки через двойное двоеточие (::). Вместо монолитной фразы a girl sitting on a park bench under an old oak tree стоит попробовать a girl sitting on a park bench :: old oak tree in the background :: sunny afternoon. Такой подход заставляет нейросеть обрабатывать каждый элемент с относительной автономией, и предметы перестают «склеиваться». К тому же двойное двоеточие позволяет задавать веса: a girl sitting on a bench::2 old oak tree::1 — здесь цифра указывает приоритет, и девушка на скамейке получит больше «внимания» алгоритма, чем дерево на заднем плане.

Seed и повторяемость генераций

Каждая генерация в Midjourney привязана к случайному числу — так называемому seed. Именно оно отвечает за то, что при одинаковом промте каждый раз получаются разные картинки. Но если результат вам почти понравился и хочется «доточить» его, не теряя общей композиции, — стоит зафиксировать seed. Делается это просто: реакция ✉️ на сообщение бота покажет seed текущей генерации, после чего его можно подставить в новый промт через параметр —seed 123456. Изменив пару слов при том же seed, вы получите вариацию, а не совершенно новую картинку.

Этот метод довольно часто выручает в коммерческой работе, когда клиенту «почти всё нравится, но нужно немного поправить». Без фиксированного seed каждая итерация — это лотерея. А с ним — точечная коррекция. К слову, seed работает стабильно только внутри одной версии модели. При переключении между версиями с тем же seed результат окажется совершенно иным.

Что делать, если ничего не помогает?

Бывает и так. Промт вылизан до блеска, параметры выставлены грамотно, версия модели — самая свежая, а результат всё равно вызывает недоумение. В такие моменты стоит задуматься: а не слишком ли нетривиальную задачу вы перед нейросетью ставите? Midjourney превосходно справляется с атмосферными пейзажами, портретами, архитектурными концептами, фэнтези-иллюстрациями. Но попросить её нарисовать, скажем, «человека, передающего другому человеку книгу левой рукой, при этом оба стоят на мосту и смотрят в камеру» — это рецепт катастрофы. Чем больше в промте пространственных взаимодействий между объектами, тем выше шанс получить «кашу».

В таких случаях на помощь приходит старый добрый метод поэтапной работы. Сначала генерируется фон или окружение отдельно. Затем — персонаж в нужной позе, тоже отдельно. После чего результаты совмещаются в графическом редакторе, а Midjourney используется для финальной стилизации через функцию /blend или загрузку референсного изображения. Да, это кропотливо. Но профессионалы из индустрии концепт-арта именно так и работают — нейросеть для них не финальный инструмент, а грубая заготовка, которую потом доводят руками в Photoshop или Procreate.

Роль референсных изображений

Изюминка Midjourney — возможность загрузить собственное изображение как визуальный ориентир. Достаточно вставить ссылку на картинку перед текстом промта, и алгоритм будет опираться на неё при генерации. Это мощный приём, особенно когда словами сложно описать желаемую цветовую палитру, фактуру материала или настроение кадра. Нужно отметить, что влияние референса можно тонко регулировать параметром —iw (image weight): при значении 0.5 текст промта доминирует, а при 2.0 — картинка-образец берёт на себя львиную долю «решений». Если генерация выходит странной именно по стилю — загрузка качественного референса иногда творит чудеса, приводя результат к нужному антуражу за одну-две итерации.

Частые ошибки новичков в Midjourney

Одна из самых распространённых — использование русского языка в промтах. Midjourney обучена преимущественно на англоязычных текстах, и хотя формально она «понимает» русские слова, интерпретирует их куда менее точно. Промт «девушка в красном платье на фоне заката» может дать сносный результат, а может — нечто совершенно неожиданное, потому что ассоциативные связи в русскоязычной части обучающей выборки слабее и менее предсказуемы. Не стоит лениться — перевод промта на английский занимает полминуты, а качество генерации вырастает ощутимо.

Ещё одна ловушка — избыточная детализация эмоций и абстракций. Фразы вроде feeling of nostalgia and bittersweet memories of childhood для нейросети — набор слабо связанных между собой понятий. Она не знает, как «выглядит» ностальгия. Зато прекрасно знает, как выглядит a faded polaroid photo on a wooden table, warm afternoon light, dust particles in the air. Вся суть в том, что эмоцию нужно переводить в визуальные атрибуты — предметы, свет, цвет, текстуры. Это и есть настоящий навык промт-инженерии, и на его освоение уходят не дни, а недели практики.

К тому же многие грешат «мусорными» словами. Добавляют beautiful, amazing, stunning, masterpiece, best quality — и искренне верят, что это улучшает результат. На деле эти слова настолько часто встречаются в промтах, что нейросеть их практически игнорирует. Гораздо эффективнее указать конкретный параметр стилизации, назвать имя фотографа или художника (in the style of Greg Rutkowski или shot by Annie Leibovitz), задать тип камеры и объектива (Canon EOS R5, 85mm f/1.4). Вот такие добротные технические детали нейросеть «слышит» отлично.

Когда «странное» — это хорошо

Впрочем, не всякая «странная» картинка — это провал. Иногда алгоритм выдаёт настолько неожиданные сочетания образов, что они вдохновляют больше, чем любой идеально выполненный запрос. Сюрреалистические коллажи, невозможная архитектура, фантастические существа, которых вы никогда бы не придумали сами, — всё это кладезь визуальных идей для художников, дизайнеров и арт-директоров. Буквально десятилетие назад подобного инструмента для мозгового штурма не существовало в природе, а сейчас он доступен за десять долларов в месяц.

Многие профессиональные иллюстраторы намеренно повышают —chaos до 80–100, ставят —weird 1000 (экспериментальный параметр, усиливающий «странность» генерации) и собирают из полученного хаоса мудборды для будущих проектов. Да и сами разработчики Midjourney неоднократно заявляли, что их цель — не фотокопировальная машина, а инструмент для творческого поиска. Так что прежде чем жаловаться на странный результат, стоит задать себе вопрос: а может, в этой «странности» как раз и кроется та самая изюминка, которую не удавалось сформулировать словами?

Работа с Midjourney — это не про «написал запрос и получил шедевр». Это итеративный скрупулёзный процесс, в котором каждый параметр, каждое слово и даже порядок этих слов вносит свою лепту в итоговый результат. Не стоит бояться экспериментов: пять, десять, двадцать генераций на одну задачу — абсолютная норма даже для опытных пользователей. А те «странные картинки», которые вызывают недоумение сегодня, завтра могут стать отправной точкой для по-настоящему грандиозного проекта. Удачи в укрощении алгоритма — терпение и практика здесь решают больше, чем любые инструкции.