Midjourney: что это такое и как работает популярная нейросеть

Ещё каких-то пять лет назад само словосочетание «нейросеть рисует картины» звучало как научная фантастика, а сегодня интернет буквально завален изображениями, которые сгенерировал искусственный интеллект. Дизайнеры спорят о смерти профессии, маркетологи радуются бесплатным иллюстрациям, а обыватели просто восхищаются тем, как машина превращает пару слов в детализированную картинку. Львиная доля этого ажиотажа приходится на один сервис, чьё название мелькает буквально повсюду — от профильных Telegram-каналов до серьёзных деловых изданий. И речь, конечно же, о Midjourney. Но чтобы не путать восторженные отзывы с реальными возможностями, стоит разобраться, как этот инструмент устроен на самом деле.

Играть в текстовые ролевые игры бесплатно

Что такое Midjourney и откуда она взялась?

Midjourney — это генеративная нейросеть, которая создаёт изображения по текстовому описанию. Звучит довольно просто, но за этой лаконичной формулировкой скрывается внушительный пласт технологий. Основал компанию Дэвид Хольц, бывший сотрудник исследовательского подразделения NASA и сооснователь стартапа Leap Motion. В открытую бета-версию сервис вышел летом 2022 года, и с тех пор команда успела выпустить несколько мажорных обновлений — вплоть до шестой версии модели, которая поразила даже скептиков. Нужно отметить, что штат Midjourney невелик: по разным оценкам, в компании трудится менее пятидесяти человек. А результат при этом конкурирует с разработками гигантов вроде OpenAI и Google. Впечатляет.

К слову, изначально доступ к нейросети был возможен исключительно через Discord — мессенджер, популярный среди геймеров. Это решение казалось странным, ведь интерфейс Discord далёк от привычного «загрузил фото — получил результат». Однако именно такая модель взаимодействия позволила команде быстро собрать сообщество и обкатать продукт без колоссальных затрат на разработку собственного сайта. Сейчас же у Midjourney появился веб-интерфейс с галереей и редактором, хотя Discord-бот по-прежнему остаётся рабочей лошадкой для миллионов пользователей.

Как устроена генерация изображений?

Сердце Midjourney — диффузионная модель. Дело в том, что нейросеть не «рисует» картинку от чистого холста, как это делает художник. Процесс устроен ровно наоборот: алгоритм берёт случайный шум (по сути, хаотичную мешанину пикселей) и шаг за шагом убирает из него всё лишнее, пока не проступит осмысленное изображение. Напоминает скульптора, который отсекает от мраморной глыбы всё ненужное. Ведь именно так описывал своё ремесло Микеланджело.

ИИ-персонаж, с которым хочется говорить 💬

Он реагирует на ваши слова, помнит, о чём вы говорили раньше, и ведёт себя в характере. Можно отыгрывать дружбу, флирт, ссоры и примирения — всё по-настоящему. Отличный способ переключиться после работы, развеяться в дороге или просто провести интересный вечер.

Начать общение 👉 https://clck.ru/3Ta8kQ

Текстовый запрос пользователя (его принято называть промтом) сначала обрабатывается языковой моделью, которая превращает слова в числовые векторы. Эти векторы задают «направление» — они подсказывают диффузионной модели, в какую сторону двигаться при очистке шума. Чем точнее и образнее сформулирован промт, тем ближе результат к задумке. Однако тут всплывает первый подводный камень: нейросеть не понимает язык буквально. Она оперирует ассоциациями, выученными на миллиардах изображений с подписями. Поэтому фраза «кот в шляпе на Марсе» даст совсем не тот результат, что «photorealistic cat wearing a top hat, Martian landscape, cinematic lighting». Нюансы формулировок решают всё.

Промт — это искусство или ремесло?

Вопрос неоднозначный. С одной стороны, написать промт может кто угодно — достаточно ввести пару слов на английском и нажать Enter. С другой — между посредственным результатом и по-настоящему впечатляющей картинкой лежит пропасть. Так появилась даже отдельная дисциплина: промт-инжиниринг. Люди, освоившие тонкости составления запросов, зарабатывают на этом вполне реальные деньги.

Из чего складывается грамотный промт? Во-первых, из описания объекта или сцены — это основа. Во-вторых, из указания стиля: можно сослаться на конкретного художника, эпоху или технику (акварель, масло, цифровой арт). Ну и, наконец, параметры — специальные команды, управляющие соотношением сторон, степенью «творческой свободы» нейросети, детализацией и прочими техническими аспектами. К примеру, параметр —ar 16:9 задаёт широкоформатную пропорцию, а —stylize с высоким значением заставит модель «приукрашивать» результат. Стоит поэкспериментировать с разными комбинациями — именно так рождаются самые колоритные работы.

Отдельно стоит упомянуть негативные промты. Это слова или фразы, которые указывают модели, чего в изображении быть не должно. Хотите портрет без рук, потому что нейросети до сих пор с ними мучаются? Или пейзаж без людей? Негативный промт — ваш спасательный круг. Впрочем, результат всё равно бывает непредсказуемым, ведь модель воспринимает инструкции вероятностно, а не как чёткий приказ.

Версии модели: от первых экспериментов до фотореализма

Эволюция качества. Буквально за два с небольшим года Midjourney совершила грандиозный скачок. Первая версия выдавала размытые абстракции, которые скорее напоминали сны, чем полноценные иллюстрации. Третья уже могла генерировать вполне узнаваемые лица и сцены, хотя артефакты — лишние пальцы, искажённые текстуры, «плывущий» текст — бросались в глаза. А вот пятая и особенно шестая версии перевернули представление о возможностях генеративного ИИ. Фотореалистичные портреты, архитектурные визуализации, стилизации под живопись эпохи Возрождения — всё это нейросеть выдаёт за считаные секунды.

К тому же каждая новая версия заметно лучше справляется с текстом на изображениях. Буквально год назад попросить Midjourney нарисовать вывеску с читаемой надписью было бесполезно — получалась абракадабра из псевдобукв. Сейчас же модель вполне сносно воспроизводит короткие фразы на латинице, хотя с кириллицей дела пока обстоят хуже. Это связано с тем, что обучающая выборка содержит на порядки больше англоязычных подписей, и модель попросту «знает» латиницу лучше.

Стоит ли платить и сколько это стоит?

Бесплатный доступ к Midjourney существовал недолго. Весной 2023 года компания отключила пробный тариф из-за наплыва пользователей и злоупотреблений (генерация дипфейков знаменитостей стала настоящей головной болью). Сейчас нейросеть работает исключительно по подписке. Базовый тарифный план обходится примерно в десять долларов в месяц и даёт около двухсот генераций. Стандартный — тридцать долларов — предлагает уже порядка пятнадцати часов «быстрого» режима плюс безлимитный «медленный». Для профессионального использования существует Pro-тариф за шестьдесят долларов с расширенными возможностями, включая «стелс-режим», при котором ваши генерации не видны другим участникам сообщества.

Серьёзное ли это вложение? Для фрилансера или дизайн-студии — однозначно нет, ведь даже одна добротная иллюстрация от живого художника может стоить дороже годовой подписки. Да и скорость работы несопоставима. Но для рядового пользователя, который хочет «побаловаться», десять долларов ежемесячно — сумма ощутимая. Тем более что генерации имеют свойство заканчиваться молниеносно: затягивает процесс не хуже социальных сетей.

Где и как пользоваться нейросетью?

Основной способ — через Discord-бота. Пользователь заходит на сервер Midjourney, выбирает один из каналов для новичков и вводит команду /imagine, после которой прописывает промт. Через минуту-полторы бот присылает сетку из четырёх изображений. Каждое из них можно увеличить до полного разрешения (кнопка U — upscale) или попросить нейросеть создать вариации на его основе (кнопка V). Довольно удобная система, хотя поначалу интерфейс Discord сбивает с толку — особенно тех, кто никогда этим мессенджером не пользовался.

Второй путь — веб-сайт midjourney.com, где с 2024 года доступен полноценный редактор. Здесь процесс выглядит привычнее: поле ввода, галерея сгенерированных работ, настройки модели. Можно загружать собственные изображения в качестве референсов, комбинировать стили, управлять «весом» отдельных элементов промта. А ещё на сайте работает поиск по генерациям всех пользователей — настоящий кладезь вдохновения и готовых промтов, которые можно адаптировать под свои задачи.

Что умеет Midjourney помимо генерации с нуля?

Мало кто знает, но функционал нейросети не ограничивается созданием картинок «из воздуха». Одна из самых полезных функций — image-to-image. Пользователь загружает собственное фото или скетч, добавляет текстовое описание, и модель генерирует новое изображение, опираясь на структуру оригинала. Это творит чудеса при стилизации: можно превратить обычную фотографию двора в акварельную иллюстрацию или в кадр из аниме-фильма. Результат, конечно, не всегда идеален, но сама возможность впечатляет.

Следующий важный инструмент — blend, позволяющий «скрестить» два или несколько изображений. Нейросеть анализирует стиль, цветовую палитру, композицию каждого из них и создаёт нечто среднее. Используют эту функцию по-разному: кто-то совмещает фотографию с картиной, кто-то комбинирует два пейзажа из разных уголков планеты. Ну, а кто-то просто развлекается, смешивая портреты друзей с изображениями животных. Результаты бывают самобытными, а иногда — откровенно комичными.

Нельзя не упомянуть и функцию pan — расширение уже готового изображения за пределы рамки. По сути, это аналог Photoshop Generative Fill: нейросеть дорисовывает то, что могло бы находиться слева, справа, сверху или снизу от имеющейся картинки. Вещь невероятно полезная, когда сгенерированная сцена идеальна по содержанию, но формат не подходит — например, нужен горизонтальный баннер, а результат получился квадратным.

Подводные камни и ограничения

При всём восхищении стоит посмотреть и на обе стороны медали. Главный минус Midjourney — отсутствие полного контроля над результатом. Да, промт задаёт направление, но финальное изображение всегда содержит элемент случайности. Иногда это играет на руку, рождая неожиданные визуальные находки. А иногда десятки регенераций не приближают к задуманному ни на шаг. Особенно тяжело приходится с анатомией: руки с шестью пальцами, асимметричные лица, странные позы — всё это по-прежнему встречается, хотя и реже, чем в ранних версиях.

Второй щепетильный момент — авторские права. На самом деле вопрос до сих пор остаётся юридически размытым. В США суды уже выносили решения о том, что изображения, целиком созданные нейросетью, не подлежат защите авторским правом. Но в других странах ситуация иная, да и сама Midjourney обучалась на миллиардах изображений, авторы которых не давали на это согласия. Несколько громких исков от художников и фотоагентств уже поданы, и исход этих разбирательств может существенно повлиять на будущее всей индустрии генеративного ИИ. Так что коммерческое использование сгенерированных картинок — территория, где стоит вести себя осторожно.

Midjourney и конкуренты: кто лучше?

Нейросетей для генерации изображений сегодня немало. Одним из главных соперников Midjourney считается DALL-E 3, интегрированная в экосистему ChatGPT от OpenAI. Её сильная сторона — точное следование инструкциям: если написать «красная чашка на зелёном столе», модель почти наверняка не перепутает цвета. Midjourney же тяготеет к художественности — её изображения зачастую выглядят «красивее», эстетичнее, но бывают менее послушными.

Отдельная история — Stable Diffusion, модель с открытым исходным кодом. Она привлекает тех, кто хочет запускать генерацию локально, на собственном компьютере, без подписок и ограничений. Но для этого нужна мощная видеокарта (минимум восемь гигабайт видеопамяти), навык работы с командной строкой и готовность копаться в настройках. Midjourney же подкупает простотой: написал промт — получил картинку. Никаких установок, никакого железа. Именно эта доступность и привела к тому, что вокруг сервиса сложилось одно из крупнейших творческих сообществ в мире.

Для чего используют Midjourney на практике?

Спектр применений — от развлечения до вполне серьёзного бизнеса. Дизайнеры интерьеров генерируют концепты комнат, подбирая палитру и мебель ещё до разговора с заказчиком. Маркетологи создают визуалы для социальных сетей, экономя десятки часов на фотосессиях. Авторы настольных игр и писатели-фантасты визуализируют персонажей и миры, а архитекторы используют нейросеть для быстрого эскизирования фасадов.

Довольно часто Midjourney находит применение и в образовании. Преподаватели истории, к примеру, генерируют стилизованные иллюстрации, чтобы показать школьникам, «как это могло выглядеть». Разумеется, о достоверности речь не идёт — нейросеть не историк. Но как инструмент вовлечения и визуальной подачи материала — работает отлично. Да и для личных проектов нейросеть годится: аватарки, обои на рабочий стол, поздравительные открытки. Мелочь, а приятно.

Играть в текстовые ролевые игры бесплатно

Советы для тех, кто только начинает

Не стоит пугаться англоязычного интерфейса. Промты на русском языке Midjourney тоже принимает, однако качество генерации при этом заметно ниже — модель просто хуже «понимает» русскоязычные ассоциации. Поэтому имеет смысл формулировать запросы на английском, даже если приходится пользоваться переводчиком. К тому же в сообществе накопилась масса готовых шаблонов: достаточно подставить нужные слова — и результат не заставит себя ждать.

Ещё один совет, который нечасто встретишь в руководствах: не стоит гнаться за длинными промтами. Многие новички пытаются впихнуть в запрос всё сразу — стиль, освещение, камеру, художника, цветовую гамму, настроение. А в итоге модель «теряется» среди противоречивых указаний, и результат получается невнятным. Лучше начинать с короткого описания в пять-семь слов, а потом постепенно добавлять детали, наблюдая, как меняется изображение. Это кропотливо, но именно так приходит понимание того, как нейросеть интерпретирует слова.

И последний нюанс, который часто упускают из виду: Midjourney прекрасно реагирует на ссылки на конкретных художников и фотографов. Стоит написать «in the style of Hayao Miyazaki» — и генерация приобретёт характерную мягкость цветов, детализацию фонов и ту самую сказочную атмосферу. Естественно, этичность такого подхода — отдельный вопрос, но с технической точки зрения изюминка нейросети именно в умении «впитывать» визуальные языки разных мастеров.

Midjourney — инструмент, который при грамотном подходе способен сэкономить часы работы и вдохнуть жизнь в самые смелые идеи. Да, нейросеть не заменит живого художника с его чутьём и эмоциональным опытом. Но как мощный добротный помощник для визуализации, прототипирования и творческого поиска — она уже доказала свою состоятельность. Удачи в экспериментах: первые генерации наверняка вызовут улыбку, а со временем результаты начнут по-настоящему удивлять.