Ещё пару лет назад сама идея генерации картинок по текстовому запросу казалась чем-то из разряда научной фантастики — да и первые результаты, честно говоря, выглядели скорее забавно, чем впечатляюще. Кривые пальцы, расплывчатые лица, текст, напоминающий клинопись неизвестной цивилизации. Но индустрия нейросетей развивается с такой скоростью, что буквально каждые полгода старые ограничения разлетаются в щепки. И вот Midjourney добралась до шестой версии, а вместе с ней пришли перемены, которые стоит разобрать по косточкам — тем более что львиная доля нововведений затрагивает именно те болевые точки, на которые пользователи жаловались годами.
Что изменилось в понимании промтов?
Промт — это, по сути, душа всего процесса. Именно от него зависит, получится ли на выходе шедевр или нечто невразумительное. В пятой версии Midjourney нередко приходилось хитрить: дописывать длинные хвосты из стилистических маркеров, перечислять через запятую десятки уточнений, а потом ещё и молиться, чтобы нейросеть всё это правильно истолковала. С шестой версией дело обстоит иначе. Разработчики кардинально переработали языковую модель, отвечающую за интерпретацию текстовых запросов, и теперь система гораздо лучше «слышит» естественную речь. Длинные описательные предложения вроде «пожилой мужчина в потёртом твидовом пиджаке стоит на мосту через туманную реку на рассвете» перестали вводить алгоритм в ступор. Каждый элемент промта модель разбирает скрупулёзно, выделяя и объект, и его свойства, и окружение, и настроение сцены. А ведь раньше хватало одного лишнего слова, чтобы результат уехал в совершенно непредсказуемую сторону.
Нужно отметить, что сам подход к написанию промтов в v6 стал ближе к обычному человеческому языку. Не стоит больше забивать строку ключевыми словами через запятую — лучше описать желаемое простыми фразами. Это довольно ощутимый сдвиг. Ведь раньше мастерство пользователя Midjourney во многом сводилось к знанию «магических слов» и их комбинаций, а сейчас на первый план выходит умение ясно формулировать мысль. К слову, старые промты из v5 в новой версии зачастую дают совсем другие результаты — и не всегда лучшие, потому что логика интерпретации полностью перестроена.
Текст на изображениях — наконец-то читаемый
Вот это — настоящий прорыв. Многие считают, что генеративные нейросети в принципе не способны корректно рисовать буквы, но на самом деле проблема всегда крылась в архитектуре модели, а не в фундаментальном ограничении технологии. В Midjourney v6 текст внутри изображений перестал быть набором случайных закорючек. Стоит заключить нужное слово или фразу в кавычки прямо в промте — и модель с высокой вероятностью отрисует их разборчиво. Не идеально, нет. Длинные предложения по-прежнему могут «поплыть», а редкие шрифты нейросеть воспроизводит с переменным успехом. Но короткие надписи — названия, заголовки, вывески — теперь выглядят вполне убедительно. Это открывает двери для создания мокапов, постеров и даже черновых макетов логотипов непосредственно через генерацию, без долгих махинаций в графических редакторах.
Все лучшие нейросети мира теперь в твоём кармане! ⚡
Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.
Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL
Реализм и детализация
Качество картинки. Именно за ним гонится львиная доля пользователей. И тут v6 творит чудеса. Детализация текстур выросла настолько, что при первом взгляде на некоторые генерации невозможно отличить их от фотографий. Поры на коже, мельчайшие нити на ткани, капли воды с правильными отражениями — всё это нейросеть воспроизводит с поразительной точностью. Кстати, именно реалистичные изображения в v6 удаются заметно лучше, чем стилизованные — хотя и со стилизацией дела обстоят неплохо. Особый интерес вызывает работа с освещением: модель научилась грамотно выстраивать светотень, учитывать несколько источников света и даже имитировать специфику различных оптических систем. Хочется эффект как у объектива с фокусным расстоянием 85 миллиметров? Достаточно упомянуть это в промте.
Впрочем, не всё так безоблачно. Ложка дёгтя — в том, что при генерации сложных многофигурных сцен модель иногда «путает» атрибуты персонажей. Допустим, в промте два человека, один в красной куртке, другой — в синей. В v6 шанс получить правильное распределение цветов заметно вырос по сравнению с предыдущими версиями, но стопроцентной гарантии по-прежнему нет. Да и с анатомией рук ситуация стала лучше, однако шесть пальцев на одной ладони всё ещё всплывают — реже, но всплывают.
Стоит ли переходить с v5.2?
Неоднозначный вопрос. С одной стороны, v6 объективно мощнее: лучше понимание промтов, выше детализация, появился читаемый текст. С другой — многие привыкли к «характеру» пятой версии и выстроили вокруг неё целые рабочие процессы. К тому же генерация в v6 занимает примерно в полтора раза больше времени, а это бьёт по бюджету для тех, кто работает на платных тарифах с ограниченным количеством минут GPU. Для обывателя, который генерирует пару картинок в неделю, разница незаметна. А вот для профессиональных иллюстраторов и дизайнеров, использующих Midjourney как конвейер, дополнительные секунды на каждую генерацию складываются во внушительные часы за месяц.
И всё же переход неизбежен. Это как с любым программным продуктом: рано или поздно старая версия перестаёт получать обновления, а сообщество мигрирует на новую платформу, унося с собой туториалы, наработки и лучшие практики. Тем более что команда Midjourney уже анонсировала постепенное сворачивание поддержки v5. Нет смысла цепляться за уходящий поезд.
Новая система апскейлинга
Апскейл в Midjourney — штука не новая, но в шестой версии подход к увеличению разрешения серьёзно переосмыслен. Раньше при апскейле изображение просто увеличивалось, и детали иногда «замыливались» или, наоборот, появлялись артефакты на ровном месте. Теперь же разработчики внедрили два режима увеличения: subtle и creative. Первый добавляет детали аккуратно, стараясь максимально сохранить исходную композицию. Второй — действует смелее, дорисовывая элементы, которых в оригинале могло и не быть. Для портретов и архитектурных визуализаций лучше работает subtle, а для фантазийных иллюстраций creative порой добавляет такую изюминку, которую и вручную-то не придумаешь.
Разрешение на выходе при апскейле достигает примерно 2048 на 2048 пикселей в базовом режиме — для печатной полиграфии этого всё ещё маловато, но для веб-дизайна, социальных сетей и презентаций вполне достаточно. К тому же никто не мешает прогнать результат через сторонний добротный апскейлер вроде Topaz Gigapixel, если нужен формат для широкоформатной печати.
Как работает параметр —style raw?
Один из самых интересных нюансов v6. По умолчанию Midjourney применяет к каждому изображению свою «внутреннюю эстетику» — определённую цветокоррекцию, контрастность, стилизацию. Это та самая узнаваемая «мидджорнийская» картинка, которую в ленте социальных сетей уже научились определять на глаз. Параметр —style raw отключает эту надстройку и заставляет модель следовать промту максимально буквально, без собственных «художественных интерпретаций». Результат — более сырой, менее «красивый» в привычном понимании, но зато значительно более управляемый. Для коммерческих задач, где нужен конкретный антураж и конкретная цветовая палитра, raw-режим зачастую оказывается спасательным кругом.
Стоит, правда, учитывать, что в raw-режиме изображения теряют часть той «магии», за которую многие и любят Midjourney. Это компромисс. Хочется драматичного света и кинематографической атмосферы «из коробки» — raw лучше не трогать. Нужна точная передача описания без отсебятины нейросети — включаем raw и скрупулёзно прописываем каждый аспект сцены в промте.
Работа с отрицательными промтами и параметр —no
Проблема нежелательных элементов на картинке знакома каждому, кто хоть раз генерировал изображения в нейросетях. Просишь нарисовать пустую комнату — а она почему-то вся заставлена мебелью. Или запрашиваешь портрет без очков, а модель упорно добавляет массивную оправу. В Midjourney v6 параметр —no стал работать ощутимо точнее. Нейросеть теперь действительно «слышит» запрет, а не интерпретирует его через раз, как бывало в ранних версиях. Безусловно, и здесь встречаются осечки — особенно если отрицаемый элемент тесно связан с контекстом сцены. Но прогресс бросается в глаза.
Что насчёт согласованности персонажей?
Долгое время одной из главных претензий к Midjourney была невозможность сгенерировать одного и того же персонажа в разных позах и ситуациях. Каждая генерация — новый человек, пусть и похожий. Для комиксов, раскадровок и серийного контента это было настоящей проблемой. В v6 разработчики сделали заметный шаг вперёд, хотя до полноценного решения ещё далеко. Использование —cref (character reference) позволяет загрузить изображение персонажа в качестве ориентира, и модель постарается сохранить его черты в новой сцене. Работает это не безупречно — одежда и мелкие детали могут меняться, — но общий облик, структура лица и причёска сохраняются довольно стабильно. Для предварительных набросков и мудбордов этого хватает с лихвой.
Кроме того, в v6 появился параметр —sref (style reference), который решает смежную задачу — перенос стилистики с одного изображения на другое. К слову, именно эта функция вызвала больше всего восторгов у сообщества дизайнеров. Загрузил понравившуюся иллюстрацию, указал —sref с нужным весом — и вся серия генераций получает единую визуальную стилистику. Антураж, палитра, характер мазков или степень реализма — всё переносится. Не идеально, но достаточно, чтобы выдержать общее настроение проекта.
Новые соотношения сторон и мультипромты
Казалось бы, мелочь — возможность менять соотношение сторон изображения. Но на практике для дизайнеров это чуть ли не важнее, чем качество самой генерации. В v6 Midjourney по-прежнему поддерживает привычные форматы через параметр —ar, однако качество генерации в нестандартных пропорциях заметно подросло. Панорамные форматы вроде 16:9 или даже 21:9 больше не страдают от «растянутости» и пустых зон — модель заполняет пространство осмысленно, выстраивая композицию с учётом выбранных пропорций.
Отдельно стоит упомянуть мультипромты — конструкцию с двойным двоеточием ::, позволяющую присваивать разным частям промта различный вес. В v6 веса интерпретируются точнее. Раньше при записи вроде «sunset::2 ocean::1 lighthouse::3» модель могла проигнорировать пропорции и выдать что-то усреднённое. Теперь же маяк действительно солирует на изображении, закат деликатно дополняет композицию, а океан уходит на второй план. Механика стала прозрачнее, а результат — предсказуемее.
Discord или веб-интерфейс?
Буквально пару лет назад работа с Midjourney без Discord была немыслима. Весь процесс — от ввода промта до получения результата — происходил исключительно в чат-ботах и серверных каналах. Для технически подкованных пользователей это не составляло проблем, но для обывателя, не знакомого с Discord, барьер входа оказывался довольно высоким. Ну, а сейчас ситуация меняется. Команда Midjourney активно развивает собственный веб-интерфейс на midjourney.com, и в связке с v6 он стал основным рабочим инструментом для многих. Галерея генераций, удобная история промтов, быстрый доступ к параметрам — всё это доступно прямо в браузере.
Впрочем, Discord никуда не делся и по-прежнему остаётся полноценным способом работы с нейросетью. Некоторые продвинутые пользователи даже предпочитают его — ведь в чате проще экспериментировать на лету, подглядывать за промтами других людей и черпать вдохновение. Да и скорость отклика в Discord иногда чуть выше, хотя тут многое зависит от загрузки серверов.
Подводные камни и ограничения
Не стоит воспринимать v6 как панацею. При всех улучшениях у модели остаются слабые места, и замалчивать их было бы нечестно. Во-первых, генерация стала медленнее — об этом уже шла речь, и для коммерческих пользователей это ощутимый нюанс. Во-вторых, модель довольно щепетильна к формулировкам: один и тот же промт, написанный чуть иначе, может дать радикально отличающийся результат. Это одновременно и плюс (больше контроля), и минус (больше времени на подбор правильных слов).
Ну и, конечно же, вопрос авторских прав по-прежнему висит в воздухе. Midjourney обучена на колоссальном массиве изображений, и споры о том, насколько этично использовать сгенерированные картинки в коммерческих проектах, не утихают. Сама компания заявляет, что пользователи платных тарифов владеют правами на свои генерации, но юридическая практика в разных странах сильно разнится. Тем более что в 2024 году в США и ЕС появились новые законодательные инициативы, касающиеся именно генеративного ИИ. Стоит держать руку на пульсе.
Советы для тех, кто начинает работу с v6
Переход на новую версию — процесс не столько технический, сколько ментальный. Привычка к старым приёмам работы с промтами может мешать: то, что отлично срабатывало в v5.2, в шестой версии нередко даёт посредственный результат. Начинать нужно с самого простого — описать сцену обычным человеческим языком, без нагромождения стилистических тегов. Если результат далёк от желаемого, стоит уточнять детали постепенно, добавляя по одному элементу за раз. Так гораздо проще отследить, какое именно слово повлияло на генерацию.
Следующий важный момент — не стоит игнорировать параметры. Midjourney v6 поддерживает внушительный арсенал настроек: от уже упомянутых —style raw, —no, —cref и —sref до менее известных вроде —chaos (степень вариативности между четырьмя картинками в сетке) и —weird (добавляет эксперимент и нестандартность). Каждый из них — инструмент тонкой настройки, и скрупулёзное их изучение со временем окупается сторицей. Да и сами результаты генерации становятся куда интереснее, когда перестаёшь полагаться только на текст промта.
Midjourney v6 — это не просто обновление, а, пожалуй, самый серьёзный скачок модели за всю историю проекта. Новый уровень понимания языка, читаемый текст, продвинутый апскейлинг и инструменты согласованности стиля делают шестую версию мощным колоритным инструментом как для творческих экспериментов, так и для коммерческой работы.
Нейросети развиваются стремительно, и то, что сегодня кажется грандиозным прорывом, через год может стать обыденностью. Но прямо сейчас Midjourney v6 — одна из самых зрелых генеративных моделей на рынке, и освоить её возможности определённо стоит. Ведь каждый новый навык в работе с ИИ — это ещё один козырь в рукаве, который рано или поздно пригодится. Удачи в экспериментах, и пусть генерации радуют с первого промта.
