Midjourney: что это такое и как работает популярная нейросеть

Ещё каких-то пять лет назад само словосочетание «нейросеть рисует картины» звучало как научная фантастика, а сегодня интернет буквально завален изображениями, которые сгенерировал искусственный интеллект. Дизайнеры спорят о смерти профессии, маркетологи радуются бесплатным иллюстрациям, а обыватели просто восхищаются тем, как машина превращает пару слов в детализированную картинку. Львиная доля этого ажиотажа приходится на один сервис, чьё название мелькает буквально повсюду — от профильных Telegram-каналов до серьёзных деловых изданий. И речь, конечно же, о Midjourney. Но чтобы не путать восторженные отзывы с реальными возможностями, стоит разобраться, как этот инструмент устроен на самом деле.

Что такое Midjourney и откуда она взялась?

Midjourney — это генеративная нейросеть, которая создаёт изображения по текстовому описанию. Звучит довольно просто, но за этой лаконичной формулировкой скрывается внушительный пласт технологий. Основал компанию Дэвид Хольц, бывший сотрудник исследовательского подразделения NASA и сооснователь стартапа Leap Motion. В открытую бета-версию сервис вышел летом 2022 года, и с тех пор команда успела выпустить несколько мажорных обновлений — вплоть до шестой версии модели, которая поразила даже скептиков. Нужно отметить, что штат Midjourney невелик: по разным оценкам, в компании трудится менее пятидесяти человек. А результат при этом конкурирует с разработками гигантов вроде OpenAI и Google. Впечатляет.

К слову, изначально доступ к нейросети был возможен исключительно через Discord — мессенджер, популярный среди геймеров. Это решение казалось странным, ведь интерфейс Discord далёк от привычного «загрузил фото — получил результат». Однако именно такая модель взаимодействия позволила команде быстро собрать сообщество и обкатать продукт без колоссальных затрат на разработку собственного сайта. Сейчас же у Midjourney появился веб-интерфейс с галереей и редактором, хотя Discord-бот по-прежнему остаётся рабочей лошадкой для миллионов пользователей.

Как устроена генерация изображений?

Сердце Midjourney — диффузионная модель. Дело в том, что нейросеть не «рисует» картинку от чистого холста, как это делает художник. Процесс устроен ровно наоборот: алгоритм берёт случайный шум (по сути, хаотичную мешанину пикселей) и шаг за шагом убирает из него всё лишнее, пока не проступит осмысленное изображение. Напоминает скульптора, который отсекает от мраморной глыбы всё ненужное. Ведь именно так описывал своё ремесло Микеланджело.

Текстовый запрос пользователя (его принято называть промтом) сначала обрабатывается языковой моделью, которая превращает слова в числовые векторы. Эти векторы задают «направление» — они подсказывают диффузионной модели, в какую сторону двигаться при очистке шума. Чем точнее и образнее сформулирован промт, тем ближе результат к задумке. Однако тут всплывает первый подводный камень: нейросеть не понимает язык буквально. Она оперирует ассоциациями, выученными на миллиардах изображений с подписями. Поэтому фраза «кот в шляпе на Марсе» даст совсем не тот результат, что «photorealistic cat wearing a top hat, Martian landscape, cinematic lighting». Нюансы формулировок решают всё.

Промт — это искусство или ремесло?

Вопрос неоднозначный. С одной стороны, написать промт может кто угодно — достаточно ввести пару слов на английском и нажать Enter. С другой — между посредственным результатом и по-настоящему впечатляющей картинкой лежит пропасть. Так появилась даже отдельная дисциплина: промт-инжиниринг. Люди, освоившие тонкости составления запросов, зарабатывают на этом вполне реальные деньги.

Из чего складывается грамотный промт? Во-первых, из описания объекта или сцены — это основа. Во-вторых, из указания стиля: можно сослаться на конкретного художника, эпоху или технику (акварель, масло, цифровой арт). Ну и, наконец, параметры — специальные команды, управляющие соотношением сторон, степенью «творческой свободы» нейросети, детализацией и прочими техническими аспектами. К примеру, параметр —ar 16:9 задаёт широкоформатную пропорцию, а —stylize с высоким значением заставит модель «приукрашивать» результат. Стоит поэкспериментировать с разными комбинациями — именно так рождаются самые колоритные работы.

Отдельно стоит упомянуть негативные промты. Это слова или фразы, которые указывают модели, чего в изображении быть не должно. Хотите портрет без рук, потому что нейросети до сих пор с ними мучаются? Или пейзаж без людей? Негативный промт — ваш спасательный круг. Впрочем, результат всё равно бывает непредсказуемым, ведь модель воспринимает инструкции вероятностно, а не как чёткий приказ.

Версии модели: от первых экспериментов до фотореализма

Эволюция качества. Буквально за два с небольшим года Midjourney совершила грандиозный скачок. Первая версия выдавала размытые абстракции, которые скорее напоминали сны, чем полноценные иллюстрации. Третья уже могла генерировать вполне узнаваемые лица и сцены, хотя артефакты — лишние пальцы, искажённые текстуры, «плывущий» текст — бросались в глаза. А вот пятая и особенно шестая версии перевернули представление о возможностях генеративного ИИ. Фотореалистичные портреты, архитектурные визуализации, стилизации под живопись эпохи Возрождения — всё это нейросеть выдаёт за считаные секунды.

К тому же каждая новая версия заметно лучше справляется с текстом на изображениях. Буквально год назад попросить Midjourney нарисовать вывеску с читаемой надписью было бесполезно — получалась абракадабра из псевдобукв. Сейчас же модель вполне сносно воспроизводит короткие фразы на латинице, хотя с кириллицей дела пока обстоят хуже. Это связано с тем, что обучающая выборка содержит на порядки больше англоязычных подписей, и модель попросту «знает» латиницу лучше.

Стоит ли платить и сколько это стоит?

Бесплатный доступ к Midjourney существовал недолго. Весной 2023 года компания отключила пробный тариф из-за наплыва пользователей и злоупотреблений (генерация дипфейков знаменитостей стала настоящей головной болью). Сейчас нейросеть работает исключительно по подписке. Базовый тарифный план обходится примерно в десять долларов в месяц и даёт около двухсот генераций. Стандартный — тридцать долларов — предлагает уже порядка пятнадцати часов «быстрого» режима плюс безлимитный «медленный». Для профессионального использования существует Pro-тариф за шестьдесят долларов с расширенными возможностями, включая «стелс-режим», при котором ваши генерации не видны другим участникам сообщества.

Серьёзное ли это вложение? Для фрилансера или дизайн-студии — однозначно нет, ведь даже одна добротная иллюстрация от живого художника может стоить дороже годовой подписки. Да и скорость работы несопоставима. Но для рядового пользователя, который хочет «побаловаться», десять долларов ежемесячно — сумма ощутимая. Тем более что генерации имеют свойство заканчиваться молниеносно: затягивает процесс не хуже социальных сетей.

Где и как пользоваться нейросетью?

Основной способ — через Discord-бота. Пользователь заходит на сервер Midjourney, выбирает один из каналов для новичков и вводит команду /imagine, после которой прописывает промт. Через минуту-полторы бот присылает сетку из четырёх изображений. Каждое из них можно увеличить до полного разрешения (кнопка U — upscale) или попросить нейросеть создать вариации на его основе (кнопка V). Довольно удобная система, хотя поначалу интерфейс Discord сбивает с толку — особенно тех, кто никогда этим мессенджером не пользовался.

Второй путь — веб-сайт midjourney.com, где с 2024 года доступен полноценный редактор. Здесь процесс выглядит привычнее: поле ввода, галерея сгенерированных работ, настройки модели. Можно загружать собственные изображения в качестве референсов, комбинировать стили, управлять «весом» отдельных элементов промта. А ещё на сайте работает поиск по генерациям всех пользователей — настоящий кладезь вдохновения и готовых промтов, которые можно адаптировать под свои задачи.

Что умеет Midjourney помимо генерации с нуля?

Мало кто знает, но функционал нейросети не ограничивается созданием картинок «из воздуха». Одна из самых полезных функций — image-to-image. Пользователь загружает собственное фото или скетч, добавляет текстовое описание, и модель генерирует новое изображение, опираясь на структуру оригинала. Это творит чудеса при стилизации: можно превратить обычную фотографию двора в акварельную иллюстрацию или в кадр из аниме-фильма. Результат, конечно, не всегда идеален, но сама возможность впечатляет.

Следующий важный инструмент — blend, позволяющий «скрестить» два или несколько изображений. Нейросеть анализирует стиль, цветовую палитру, композицию каждого из них и создаёт нечто среднее. Используют эту функцию по-разному: кто-то совмещает фотографию с картиной, кто-то комбинирует два пейзажа из разных уголков планеты. Ну, а кто-то просто развлекается, смешивая портреты друзей с изображениями животных. Результаты бывают самобытными, а иногда — откровенно комичными.

Нельзя не упомянуть и функцию pan — расширение уже готового изображения за пределы рамки. По сути, это аналог Photoshop Generative Fill: нейросеть дорисовывает то, что могло бы находиться слева, справа, сверху или снизу от имеющейся картинки. Вещь невероятно полезная, когда сгенерированная сцена идеальна по содержанию, но формат не подходит — например, нужен горизонтальный баннер, а результат получился квадратным.

Подводные камни и ограничения

При всём восхищении стоит посмотреть и на обе стороны медали. Главный минус Midjourney — отсутствие полного контроля над результатом. Да, промт задаёт направление, но финальное изображение всегда содержит элемент случайности. Иногда это играет на руку, рождая неожиданные визуальные находки. А иногда десятки регенераций не приближают к задуманному ни на шаг. Особенно тяжело приходится с анатомией: руки с шестью пальцами, асимметричные лица, странные позы — всё это по-прежнему встречается, хотя и реже, чем в ранних версиях.

Второй щепетильный момент — авторские права. На самом деле вопрос до сих пор остаётся юридически размытым. В США суды уже выносили решения о том, что изображения, целиком созданные нейросетью, не подлежат защите авторским правом. Но в других странах ситуация иная, да и сама Midjourney обучалась на миллиардах изображений, авторы которых не давали на это согласия. Несколько громких исков от художников и фотоагентств уже поданы, и исход этих разбирательств может существенно повлиять на будущее всей индустрии генеративного ИИ. Так что коммерческое использование сгенерированных картинок — территория, где стоит вести себя осторожно.

Midjourney и конкуренты: кто лучше?

Нейросетей для генерации изображений сегодня немало. Одним из главных соперников Midjourney считается DALL-E 3, интегрированная в экосистему ChatGPT от OpenAI. Её сильная сторона — точное следование инструкциям: если написать «красная чашка на зелёном столе», модель почти наверняка не перепутает цвета. Midjourney же тяготеет к художественности — её изображения зачастую выглядят «красивее», эстетичнее, но бывают менее послушными.

Отдельная история — Stable Diffusion, модель с открытым исходным кодом. Она привлекает тех, кто хочет запускать генерацию локально, на собственном компьютере, без подписок и ограничений. Но для этого нужна мощная видеокарта (минимум восемь гигабайт видеопамяти), навык работы с командной строкой и готовность копаться в настройках. Midjourney же подкупает простотой: написал промт — получил картинку. Никаких установок, никакого железа. Именно эта доступность и привела к тому, что вокруг сервиса сложилось одно из крупнейших творческих сообществ в мире.

Для чего используют Midjourney на практике?

Спектр применений — от развлечения до вполне серьёзного бизнеса. Дизайнеры интерьеров генерируют концепты комнат, подбирая палитру и мебель ещё до разговора с заказчиком. Маркетологи создают визуалы для социальных сетей, экономя десятки часов на фотосессиях. Авторы настольных игр и писатели-фантасты визуализируют персонажей и миры, а архитекторы используют нейросеть для быстрого эскизирования фасадов.

Довольно часто Midjourney находит применение и в образовании. Преподаватели истории, к примеру, генерируют стилизованные иллюстрации, чтобы показать школьникам, «как это могло выглядеть». Разумеется, о достоверности речь не идёт — нейросеть не историк. Но как инструмент вовлечения и визуальной подачи материала — работает отлично. Да и для личных проектов нейросеть годится: аватарки, обои на рабочий стол, поздравительные открытки. Мелочь, а приятно.

Советы для тех, кто только начинает

Не стоит пугаться англоязычного интерфейса. Промты на русском языке Midjourney тоже принимает, однако качество генерации при этом заметно ниже — модель просто хуже «понимает» русскоязычные ассоциации. Поэтому имеет смысл формулировать запросы на английском, даже если приходится пользоваться переводчиком. К тому же в сообществе накопилась масса готовых шаблонов: достаточно подставить нужные слова — и результат не заставит себя ждать.

Ещё один совет, который нечасто встретишь в руководствах: не стоит гнаться за длинными промтами. Многие новички пытаются впихнуть в запрос всё сразу — стиль, освещение, камеру, художника, цветовую гамму, настроение. А в итоге модель «теряется» среди противоречивых указаний, и результат получается невнятным. Лучше начинать с короткого описания в пять-семь слов, а потом постепенно добавлять детали, наблюдая, как меняется изображение. Это кропотливо, но именно так приходит понимание того, как нейросеть интерпретирует слова.

И последний нюанс, который часто упускают из виду: Midjourney прекрасно реагирует на ссылки на конкретных художников и фотографов. Стоит написать «in the style of Hayao Miyazaki» — и генерация приобретёт характерную мягкость цветов, детализацию фонов и ту самую сказочную атмосферу. Естественно, этичность такого подхода — отдельный вопрос, но с технической точки зрения изюминка нейросети именно в умении «впитывать» визуальные языки разных мастеров.

Midjourney — инструмент, который при грамотном подходе способен сэкономить часы работы и вдохнуть жизнь в самые смелые идеи. Да, нейросеть не заменит живого художника с его чутьём и эмоциональным опытом. Но как мощный добротный помощник для визуализации, прототипирования и творческого поиска — она уже доказала свою состоятельность. Удачи в экспериментах: первые генерации наверняка вызовут улыбку, а со временем результаты начнут по-настоящему удивлять.