Ещё пару лет назад нейросети рисовали людей с шестью пальцами, кривыми зубами и глазами, от которых становилось не по себе. Обыватели посмеивались, дизайнеры пожимали плечами, а скептики уверенно заявляли, что до настоящего фотореализма машинной графике — как до Луны пешком. И вот на сцену вышла шестая версия Midjourney, которая заставила замолчать даже самых упёртых критиков. Картинки, сгенерированные этим инструментом, стали путать с реальными фотографиями не только случайные зрители, но и профессиональные фотографы. А ведь дело не только в красоте пикселей — нейросеть научилась понимать по-настоящему запутанные текстовые запросы, что ещё вчера казалось фантастикой. Но чтобы разобраться, где тут реальный прорыв, а где маркетинговый лоск, стоит копнуть глубже.
Что изменилось по сравнению с пятой версией?
Скачок ощутимый. Пятая версия Midjourney уже впечатляла — особенно после того, как модель научилась более-менее правильно прорисовывать человеческие руки. Но шестая итерация сделала то, чего многие не ожидали: она перестала «рисовать» и начала «фотографировать». Разница на первый взгляд может показаться косметической, однако при скрупулёзном сравнении всплывают десятки нюансов. Текстуры кожи стали зернистыми, живыми — с теми самыми микроскопическими порами и неровностями, которые отличают снимок от цифрового рендера. Ткань перестала выглядеть приклеенной к телу, а волосы наконец-то обрели объём, пушистость на кончиках и естественные световые блики. К тому же радикально улучшилась работа с глубиной резкости: задний план теперь размывается ровно так, как это сделал бы объектив с фокусным расстоянием 85 миллиметров при открытой диафрагме.
Отдельно стоит упомянуть работу с освещением. В пятой версии свет вёл себя довольно предсказуемо — нейросеть тяготела к мягкому рассеянному свету, который, конечно, выглядит приятно, но создаёт ощущение стерильности. Midjourney 6 же научилась имитировать жёсткий контрастный свет, золотистый час на закате, неоновое свечение мокрого асфальта ночного города. И это не просто набор фильтров — модель понимает, откуда падает источник, как тени ложатся на рельеф лица, где появляются рефлексы от окружающих поверхностей. Результат бросается в глаза: кадры приобрели ту самую кинематографическую глубину, которой так не хватало раньше.
Фотореализм или искусная иллюзия?
Вопрос неоднозначный. С одной стороны, сгенерированные Midjourney 6 портреты действительно проходят «тест на первый взгляд» — быстрый скроллинг ленты не позволяет отличить их от настоящих фотографий. Но дьявол, как водится, прячется в деталях. Стоит приблизить изображение до ста процентов, и кое-где можно заметить характерные артефакты: слишком гладкую текстуру мочки уха, неестественный переход между кожей и линией роста волос, чуть «плывущие» буквы на вывесках (хотя с текстом в этой версии дела обстоят на порядок лучше). Ведь именно мелочи отличают добротную цифровую подделку от настоящего снимка.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Многие считают, что фотореализм — это просто про «красивую картинку». На самом деле всё куда сложнее. Настоящий реализм складывается из сотен неочевидных факторов: хроматические аберрации на краях кадра, лёгкая виньетка, шум матрицы при высоком ISO, микроразмытие от дрожания рук фотографа. И вот тут Midjourney 6 творит чудеса — модель научилась воспроизводить эти «несовершенства» камеры, благодаря чему картинка перестаёт выглядеть стерильно-цифровой. Если в промпте указать конкретную модель фотоаппарата (скажем, shot on Canon EOS R5, 35mm lens, f/1.4), нейросеть попытается сымитировать характерный рисунок боке и цветопередачу этого объектива. Получается не всегда идеально, но сам факт впечатляет.
Как нейросеть справляется со сложными промптами?
Революция тихая. Раньше промпт длиннее двух-трёх строк превращался для Midjourney в настоящую головоломку — модель выхватывала из текста отдельные слова и собирала из них нечто приблизительное, игнорируя логические связи между частями запроса. Просили «старика в потёртом кожаном кресле у камина с книгой Толстого на коленях» — получали старика. Иногда с камином. Книга могла оказаться на полке, а кресло и вовсе исчезнуть. Шестая версия подошла к этой проблеме иначе: архитектура модели стала лучше отслеживать взаимосвязи между объектами внутри сцены.
Теперь нейросеть куда точнее интерпретирует пространственные отношения — «на», «под», «рядом с», «позади». Если попросить «рыжего кота, сидящего на стопке старых газет рядом с окном, за которым идёт дождь», львиная доля генераций выдаст именно такую композицию. Не безупречно каждый раз, но процент попаданий вырос колоссально. Кстати, улучшилась и работа с числительными. Попросить «три яблока на столе» и получить именно три, а не пять и не два — в пятой версии это было настоящей лотереей. Сейчас модель справляется с подсчётом объектов до четырёх-пяти штук довольно стабильно, хотя с бо́льшими числами всё ещё бывают промахи.
Нельзя не упомянуть понимание стилистических отсылок. Midjourney 6 распознаёт не просто имена художников или фотографов — она улавливает описания настроения и атмосферы. Промпт вроде «melancholic winter morning, overexposed Polaroid from the 1970s, faded colours, slight motion blur» порождает кадр, пропитанный тоской и ностальгией. А ведь «тоску» в промпте никто не прописывал напрямую — модель вычленила её из совокупности косвенных признаков. Это довольно серьёзный шаг вперёд по сравнению с тем, что мы видели ещё год назад.
Текст на изображениях — ложка дёгтя или прорыв?
Больная тема. Генерация читаемого текста на картинках — подводный камень, о который спотыкались все без исключения модели генеративного ИИ. Midjourney 6 сделала в этом направлении заметный рывок, но до совершенства ещё далеко. Короткие слова из трёх-пяти букв нейросеть воспроизводит уверенно — вывеска магазина «OPEN», надпись на футболке «NYC», название бренда на чашке кофе. Проблемы начинаются, когда текст становится длиннее: буквы начинают «плыть», появляются несуществующие символы, а порой целые слова мутируют до неузнаваемости.
Впрочем, даже с этими ограничениями прогресс впечатляет. Буквально десятилетие назад (ну, ладно, полтора года) любой текст на сгенерированном изображении выглядел как набор каракулей из параллельной вселенной. Сейчас же при грамотно составленном промпте с указанием конкретных слов в кавычках модель выдаёт вполне читаемые надписи примерно в семи случаях из десяти. Для маркетологов и дизайнеров, которым нужны быстрые мокапы с текстом на упаковке или билборде, это уже вполне рабочий инструмент. Ну, а для финального продукта текст всё-таки лучше накладывать вручную — так надёжнее.
Стоит ли тратить время на изучение промптинга?
Короткий ответ — да. Но с оговоркой. Midjourney 6 стала гораздо терпимее к «ленивым» промптам: даже простое описание в пару слов порождает добротный результат. Однако настоящая магия раскрывается при детальных запросах, где каждое слово подобрано осмысленно. Дело в том, что модель теперь обрабатывает промпт не как мешок ключевых слов, а скорее как связное предложение с иерархией приоритетов. Слова, стоящие в начале запроса, получают больший вес, а уточнения в конце работают как тонкая настройка.
К слову, появилась довольно интересная механика с так называемыми «негативными промптами» через параметр —no. Раньше он работал грубо — просто пытался убрать нежелательный элемент, иногда убирая заодно и половину сцены. Сейчас же исключение объектов стало точечным и деликатным. Нужно убрать очки с портрета? Пожалуйста. Не хотите, чтобы на пейзаже были люди? Один параметр, и пляж пуст. Тем более что в шестой версии заметно расширился набор «скрытых» параметров: —style raw теперь выдаёт менее обработанную, более «сырую» картинку, а —chaos с высоким значением порождает неожиданные интерпретации, которые иногда оказываются куда интереснее задуманного.
Практическое применение: от маркетинга до искусства
Сфера применения ширится с каждым месяцем. Один из самых популярных сценариев — создание визуального контента для социальных сетей и рекламных кампаний. Малый бизнес, у которого нет бюджета на профессиональную фотосессию (а это от тридцати до ста тысяч рублей за съёмочный день), получил мощный спасательный круг. Сгенерировать десяток фотореалистичных изображений продукта в разных интерьерах — вопрос получаса и пары сотен рублей за подписку. Да, результат не заменит работу опытного предметного фотографа, но для стартовой страницы в Instagram или карточки на маркетплейсе — более чем достаточно.
Другое направление тяготеет к концепт-арту и предвизуализации. Архитекторы используют Midjourney для быстрого эскизирования фасадов, дизайнеры интерьеров — для демонстрации идей заказчикам, а сценаристы и режиссёры — для создания раскадровок. И здесь шестая версия внесла серьёзную лепту: благодаря точному пониманию пространственных отношений и стилистических нюансов, концепты получаются настолько убедительными, что их порой показывают инвесторам на презентациях без каких-либо пояснений о способе создания.
Ну и, конечно же, нельзя обойти стороной художников. Мнения здесь расходятся кардинально. Одни воспринимают Midjourney как угрозу — инструмент, который обесценивает годы обучения и практики. Другие же видят в нём колоритный творческий трамплин: задаёшь нейросети общее направление, получаешь неожиданную интерпретацию, а дальше дорабатываешь руками в Photoshop или Procreate. Истина, как всегда, где-то посередине. Но факт остаётся фактом: модель превратилась из забавной игрушки в полноценный рабочий инструмент.
Какие ограничения всё ещё мешают?
Идеализировать нейросеть не стоит. При всех впечатляющих достижениях, у Midjourney 6 хватает подводных камней. Во-первых, модель по-прежнему испытывает трудности с анатомически сложными позами — переплетённые руки, скрещённые ноги, вид сверху на фигуру человека. Во-вторых, детализация мелких объектов на заднем плане нередко «разваливается»: вблизи выглядит убедительно, а при увеличении превращается в цифровую кашу. Ну и, наконец, есть проблема консистентности персонажей — сгенерировать одного и того же человека в разных ракурсах и сценах до сих пор крайне сложно без дополнительных ухищрений вроде загрузки референсного изображения.
Скорость генерации тоже вызывает вопросы. Качественный результат в режиме —quality 2 потребует от 60 до 90 секунд ожидания. Для единичного изображения это терпимо, но когда нужно перебрать три-четыре десятка вариантов, процесс растягивается на часы. Да и серверы Midjourney в пиковые часы работают под нагрузкой — очередь генерации удлиняется, а бюджет подписки тает быстрее, чем хотелось бы. Впрочем, для тех, кто использует нейросеть профессионально, план Pro за 96 долларов в месяц снимает большинство этих неудобств. Бьёт ли это по бюджету фрилансера? Безусловно. Но окупается ли? При грамотном подходе — вполне.
Midjourney 6 и конкуренты: кто впереди?
Конкурентное поле сейчас раскалено до предела. DALL-E 3 от OpenAI лучше работает с текстом на изображениях и глубже интегрирован с ChatGPT, что делает промптинг интуитивнее для новичков. Stable Diffusion 3 от Stability AI привлекает открытым исходным кодом и возможностью локального запуска — для тех, кому важна приватность и полный контроль. А Firefly от Adobe встраивается прямо в Photoshop, что для профессионального фотографа и ретушёра просто подарок.
Но у Midjourney 6 есть своя изюминка, которая выделяет её на фоне остальных. Это — эстетика по умолчанию. Без лишних усилий модель выдаёт кадры с тем самым «вау-эффектом», на который у конкурентов нужно тратить дополнительные манипуляции. Особый интерес вызывает работа с атмосферой и настроением: там, где DALL-E создаёт технически корректное, но эмоционально нейтральное изображение, Midjourney наполняет сцену драматизмом, теплотой или тревогой — в зависимости от промпта. Это связано с тем, что обучающая выборка модели включала огромный массив профессиональных фотографий и работ художников, что сформировало у нейросети своего рода «вкус». Неоднозначный, субъективный, порой вычурный — но безошибочно узнаваемый.
Что ждёт Midjourney дальше?
Прогнозы — дело неблагодарное, особенно в индустрии, где прорывы случаются каждые полгода. Тем не менее, уже сейчас команда Midjourney намекает на несколько грандиозных направлений развития. Одно из них — генерация видео, которая постепенно переходит из стадии эксперимента в стадию раннего тестирования. Если качество движущихся изображений хотя бы приблизится к тому уровню фотореализма, который демонстрирует шестая версия в статике, это перевернёт рынок стоковых видео и малобюджетного кинопроизводства.
Другое направление — улучшение консистентности персонажей и возможность создания целых серий связанных изображений. По сути, речь идёт о визуальном сторителлинге, где нейросеть сможет сгенерировать иллюстрации к целой книге с одними и теми же героями, не теряя их внешний облик от кадра к кадру. Пока это скорее мечта, но темпы развития таковы, что самые смелые фантазии имеют свойство сбываться быстрее, чем кажется. Да и сама архитектура модели продолжает эволюционировать — инженеры активно экспериментируют с более эффективными механизмами внимания, которые позволят обрабатывать промпты на порядок сложнее нынешних.
Midjourney 6 — это не финишная прямая, а скорее промежуточный, но крайне внушительный этап. Инструмент уже сегодня способен закрыть массу задач, на которые раньше уходили часы работы дизайнера или тысячи рублей из бюджета на фотосессию. Не стоит бояться экспериментов с промптами: чем необычнее запрос, тем интереснее результат. А тем, кто всё ещё сомневается, стоит ли пробовать, — достаточно сгенерировать первый кадр. Восторг от увиденного станет лучшим аргументом.

