Подробный обзор Midjourney: плюсы, минусы и основные фишки

Ещё каких-то пять лет назад генерация изображений по текстовому описанию казалась чем-то из области научной фантастики — делом далёкого будущего, а не повседневным инструментом дизайнера или маркетолога. Нейросети, конечно, существовали, но результаты их работы вызывали скорее улыбку, чем восхищение: размытые пятна, кривые пропорции и полное отсутствие логики в деталях. А потом за каких-то пару лет всё перевернулось. Рынок буквально захлестнула волна ИИ-генераторов, и среди них довольно быстро выделился один сервис, о котором сегодня не слышал разве что совсем далёкий от технологий обыватель. Речь о Midjourney — нейросети, которая приковывает внимание не только новичков, но и профессионалов с многолетним стажем. Но чтобы понять, стоит ли тратить на неё время и деньги, нужно разобраться в нюансах без розовых очков.

Что такое Midjourney и откуда она взялась?

Midjourney — это генеративная нейросеть, превращающая текстовое описание (промт) в готовое изображение. Стоит за ней небольшая независимая лаборатория из Сан-Франциско, основанная Дэвидом Хольцем в 2021 году. К слову, Хольц — не случайный человек в индустрии: до Midjourney он руководил исследовательским подразделением в Leap Motion, компании, которая занималась технологиями отслеживания движений рук. Первая публичная бета-версия появилась в июле 2022-го, и тогда мало кто воспринимал сервис всерьёз. Однако уже к осени того же года работы, сгенерированные в Midjourney, начали побеждать на конкурсах цифрового искусства, вызывая бурные споры в профессиональном сообществе. Сейчас нейросеть добралась до шестой версии (V6.1), и разница с первыми итерациями — грандиозная.

Как начать работу?

Долгое время единственной точкой входа оставался Discord. Да, именно мессенджер для геймеров. Многих это отпугивало, ведь интерфейс чат-бота внутри Discord — штука довольно непривычная для человека, который просто хочет «нарисовать картинку». Нужно было зайти на сервер Midjourney, найти один из каналов для новичков, ввести команду /imagine и через пробел написать текстовое описание желаемого результата. Бот генерировал сетку из четырёх вариантов, а дальше — выбирай, увеличивай, перегенерируй. Звучит просто. На деле же львиная доля новичков терялась в потоке чужих запросов и результатов, мелькающих в общих каналах с бешеной скоростью.

Ситуация изменилась. В 2024 году команда наконец запустила полноценный веб-интерфейс на сайте midjourney.com. И вот тут работать стало ощутимо комфортнее: собственная галерея, удобная история промтов, возможность редактирования прямо в браузере. Discord при этом никуда не делся — многие опытные пользователи по-прежнему предпочитают именно его за скорость и гибкость. Но для тех, кто только окунается в мир ИИ-генерации, веб-версия стала настоящим спасательным кругом.

Сильные стороны: за что Midjourney хвалят?

Первое, что бросается в глаза, — эстетика. Midjourney тяготеет к красивым, стилистически выверенным изображениям «из коробки». Даже довольно простой промт вроде «старый маяк на закате» выдаёт результат, который хочется повесить на стену. Это не случайность и не магия: нейросеть изначально обучалась с уклоном в художественную фотографию и цифровую живопись, и этот «почерк» чувствуется в каждом поколении. В представлении многих именно за эту врождённую «красивость» Midjourney и получила такую популярность, обогнав конкурентов, которые генерировали технически точные, но безжизненные картинки.

Следующий важный критерий — работа с текстурами и светом. Здесь нейросеть творит чудеса. Мрамор выглядит как мрамор, ткань — как ткань, капли дождя на стекле получаются настолько реалистичными, что отличить от фотографии бывает почти невозможно. Особый интерес вызывает работа с контровым и объёмным освещением: нейросеть понимает, как свет ложится на поверхности, создаёт правдоподобные тени и отражения. Для иллюстраторов и дизайнеров интерьеров это — кладезь вдохновения.

Нельзя не упомянуть и скорость. Генерация четырёх вариантов в стандартном режиме занимает от тридцати секунд до минуты. В режиме —fast — ещё быстрее. Для сравнения: ручная отрисовка концепта подобного качества у живого художника займёт часы, а то и дни. Разумеется, нейросеть не заменяет художника. Но на этапе поиска идеи, подбора настроения, создания мудборда — экономия времени колоссальная. Ведь именно этот этап раньше «съедал» львиную долю бюджета на препродакшн.

Подводные камни и слабые места

Ложка дёгтя. А куда без неё? Начать стоит с самой болезненной темы — рук и пальцев. Хотя с каждой новой версией ситуация улучшается, полностью проблему так и не решили. Шестой палец, неестественно вывернутый сустав, сросшиеся фаланги — всё это до сих пор всплывает с завидной регулярностью. Особенно если на изображении несколько персонажей, взаимодействующих друг с другом. Нейросеть словно теряется, когда нужно понять, чья рука где заканчивается.

Текст на изображениях — ещё одно слабое место. Да, V6 научилась вписывать буквы и даже короткие слова (если заключить их в кавычки внутри промта), но результат всё-таки неоднозначный. Иногда буквы пляшут, иногда удваиваются, а порой нейросеть выдумывает несуществующие символы. Для обложек книг или рекламных макетов, где текст — критичный элемент, полагаться на Midjourney пока рискованно. Впрочем, для декоративных надписей в стиле вывесок или граффити результат бывает вполне достойным.

Контроль над композицией — тема отдельная и довольно сложная. Midjourney не позволяет точно указать, где именно на холсте расположить объект. Нет привычного «поставь персонажа в левый нижний угол, а за ним — горный пейзаж». Нейросеть сама решает, как скомпоновать сцену, и далеко не всегда её видение совпадает с замыслом автора. Существуют обходные пути: использование параметров —ar для задания пропорций, загрузка референсных изображений, весовые коэффициенты для отдельных частей промта. Но до полноценного контроля, который предлагают, скажем, ComfyUI или ControlNet в связке со Stable Diffusion, Midjourney пока далеко. И это сознательный выбор разработчиков: простота использования в ущерб тонкой настройке.

Стоит ли платить?

Бесплатного тарифа у Midjourney больше нет. Раньше новичкам давали около двадцати пяти пробных генераций, но эту возможность закрыли из-за массовых злоупотреблений. Сейчас минимальный тариф — десять долларов в месяц (Basic Plan), и за эти деньги пользователь получает примерно двести генераций в режиме —fast. Следующая ступень — тридцать долларов (Standard Plan), где время генерации в быстром режиме увеличивается до пятнадцати часов, а в медленном (—relax) становится безлимитным. Для профессионалов, которые работают с нейросетью каждый день, этот тариф бьёт по бюджету не так сильно, как может показаться, — ведь альтернативой зачастую выступает найм иллюстратора на фрилансе, а это совершенно другие суммы.

Есть ещё Pro Plan за шестьдесят долларов и Mega Plan за сто двадцать. Отличия — в количестве часов быстрой генерации и доступе к «скрытому режиму» (Stealth Mode), при котором ваши работы не видны другим пользователям в общей галерее. К слову, это довольно щепетильный момент: по умолчанию все изображения, созданные в Midjourney, попадают в публичный доступ. И если коммерческий проект требует конфиденциальности, без Stealth Mode не обойтись. Кошелёк, конечно, станет легче. Но и конкуренты ваши наработки не увидят.

Главные фишки, которые стоит освоить

Параметры. Вся суть в том, что Midjourney управляется не только текстом промта, но и специальными параметрами, которые дописываются через двойной дефис в конце запроса. Один из самых востребованных — —ar (aspect ratio), позволяющий задать соотношение сторон. По умолчанию нейросеть генерирует квадрат 1:1, но для баннера нужен 16:9, для сторис — 9:16, а для киноафиши — 2:3. Без этого параметра половина задач попросту нерешаема.

Далее следует —stylize (или сокращённо —s). Этот параметр регулирует степень «художественности» результата. Значение по умолчанию — 100. При —s 0 нейросеть старается максимально точно следовать промту, жертвуя красотой ради буквальности. А при —s 1000 изображение становится чрезмерно декоративным, порой до наляпистости, — зато невероятно эффектным. Золотая середина у каждого своя, и находится она только методом проб.

Отдельно стоит упомянуть функцию —chaos. Она отвечает за разнообразие внутри одной генерации. При значении 0 все четыре варианта в сетке будут похожи друг на друга, как братья-близнецы. При 100 — каждый вариант окажется совершенно непредсказуемым. Это удобно на стадии брейнсторма, когда конкретного видения ещё нет и хочется получить веер разных интерпретаций одного запроса. А вот для финального результата, когда направление уже выбрано, chaos лучше снизить до минимума.

Работа с изображениями-референсами — ещё одна изюминка сервиса. Достаточно вставить ссылку на картинку перед текстом промта, и нейросеть возьмёт её за основу: подхватит цветовую палитру, настроение, общую композицию. Можно комбинировать сразу несколько референсов, задавая каждому свой вес через параметр —iw. Тем более что в шестой версии точность следования референсу заметно подросла. Профессионалы используют эту механику для создания серий иллюстраций в едином стиле — задача, которая раньше требовала скрупулёзной ручной работы.

Midjourney и конкуренты: кто кого?

Сравнение неизбежно. Главные соперники — DALL·E 3 от OpenAI и Stable Diffusion от Stability AI. У каждого свои козыри. DALL·E 3 лучше понимает сложные текстовые запросы и точнее работает с надписями на изображениях (всё-таки за ним стоит мощь GPT-4). Но эстетически его результаты нередко выглядят «пластмассовыми», слишком чистыми, лишёнными той самобытной атмосферности, которой славится Midjourney.

Со Stable Diffusion история обратная. Это проект с открытым исходным кодом, а значит, настройка возможна буквально до мельчайшей детали: собственные модели, LoRA-адаптеры, инструменты для точного контроля поз и композиции. Но порог входа — внушительный. Без знания Python, понимания архитектуры нейросетей и мощного «железа» (видеокарта с объёмом памяти от 8 ГБ, а лучше — от 12) делать в Stable Diffusion особо нечего. Midjourney же работает в облаке: не нужно ни мощного компьютера, ни технических знаний. Набрал текст, нажал Enter — готово. И в этой простоте кроется её главное конкурентное преимущество.

Вопрос авторских прав

Тема непростая. Многие считают, что раз картинку «нарисовала» нейросеть, то и авторских прав у пользователя быть не может. На самом деле всё сложнее. Согласно текущей политике Midjourney, пользователи платных тарифов получают коммерческие права на сгенерированные изображения. То есть их можно использовать для рекламы, печатной продукции, сайтов и даже мерча. Но есть оговорка: если годовой доход компании превышает миллион долларов, требуется подписка уровня Pro или выше.

С юридической стороны вопрос до сих пор остаётся открытым. В США Бюро авторских прав уже вынесло несколько решений, согласно которым изображения, полностью сгенерированные ИИ без существенного человеческого вклада, не подлежат копирайт-защите. Но если автор доработал результат в Photoshop, скомпоновал коллаж или использовал генерацию как один из этапов более сложного творческого процесса — ситуация меняется. В России же чёткой судебной практики по этому вопросу пока нет вовсе. Да и вряд ли она появится в ближайший год-два. Так что не стоит строить бизнес-модель целиком на ИИ-контенте без юридической подушки безопасности.

Практические советы для новичков

Промт — это не магическое заклинание, а скорее техническое задание. Чем конкретнее — тем лучше. Вместо расплывчатого «красивый пейзаж» стоит написать что-то вроде «горное озеро на рассвете, туман над водой, отражения сосен, кинематографическое освещение, стиль National Geographic». Дело в том, что нейросеть не угадывает желания — она интерпретирует слова. И чем больше деталей, тем ближе результат к ожиданиям.

Ну и, конечно же, стоит экспериментировать со стилевыми референсами. Добавление имён художников или фотографов в промт заметно влияет на результат: «in the style of Hayao Miyazaki» даст мягкие акварельные тона и сказочную атмосферу, а «by Annie Leibovitz» — драматичное портретное освещение с глубокими тенями. Не стоит стесняться смешивать несовместимое: порой самые колоритные результаты рождаются на стыке стилей, которые в реальной жизни никогда бы не встретились. Midjourney такие эксперименты только поощряет.

Ещё один нюанс — негативные промты. В отличие от Stable Diffusion, где отрицательные промты выносятся в отдельное поле, в Midjourney используется параметр —no. Написав, например, —no text, watermark, blur, можно попросить нейросеть избежать этих элементов. Работает не идеально, но всё же заметно снижает количество нежелательных артефактов. Тем более что без этого параметра на изображениях то и дело появляются случайные надписи и водяные знаки — наследие обучающей выборки.

Для кого Midjourney подойдёт лучше всего?

Для дизайнеров, которым нужны быстрые концепты и мудборды. Для маркетологов, которым не хватает бюджета на полноценную фотосессию. Для авторов книг, мечтающих увидеть своих персонажей «живыми». Для владельцев малого бизнеса, которым нужны иллюстрации для соцсетей, а нанимать дизайнера на постоянной основе — серьёзное вложение. Да и для обычных энтузиастов, которым просто интересно окунуться в мир генеративного искусства — Midjourney станет добротным стартом.

А вот для задач, требующих пиксельной точности — технических чертежей, точных воспроизведений реальных объектов, интерфейсов приложений — инструмент пока не годится. И это нормально. Ведь нейросеть задумывалась прежде всего как творческий помощник, а не как замена CAD-системы или графического редактора.

Midjourney — инструмент неоднозначный, местами капризный, но невероятно мощный в умелых руках. Со временем его возможности будут только расширяться: команда уже анонсировала работу над генерацией видео и 3D-моделей. Так что осваивать промт-инженерию именно сейчас — решение, которое вряд ли разочарует. Удачи в экспериментах, и пусть каждая генерация приносит хотя бы один вариант, ради которого всё это затевалось.