Лучший ИИ для генерации изображений: подробное руководство по Midjourney

Ещё три-четыре года назад сама идея того, что нейросеть по короткому текстовому запросу нарисует фотореалистичный портрет или фантазийный пейзаж, казалась довольно далёкой от реальности. Дизайнеры скептически хмыкали, художники крутили пальцем у виска, а обыватели и вовсе не понимали, зачем всё это нужно. Но прошло совсем немного времени — и генеративные модели буквально перевернули представление о визуальном контенте. Сегодня на рынке десятки инструментов: DALL·E, Stable Diffusion, Leonardo, Firefly и многие другие. Однако львиная доля профессионалов и энтузиастов упорно тяготеет именно к Midjourney, и на то есть весомые причины. А чтобы разобраться во всех нюансах этого инструмента, стоит пройтись по его возможностям скрупулёзно — от первой регистрации до тонкой настройки промтов.

Почему именно Midjourney?

Вопрос не праздный. Ведь конкуренты не стоят на месте, да и бесплатных альтернатив в сети хватает. Дело в том, что Midjourney с самого начала пошёл по пути эстетики, а не голого реализма. Результаты работы этой нейросети приковывают внимание какой-то особой «живописностью» — даже простенький запрос вроде «закат над озером» выдаёт картинку, которую хочется повесить на стену. Конкуренты вроде DALL·E 3 берут точностью следования инструкциям, Stable Diffusion — гибкостью и открытым кодом. Но именно у Midjourney получился тот самый колоритный авторский почерк, который бросается в глаза моментально. К тому же команда разработчиков обновляет модель с завидной регулярностью: версия 6.1 на момент написания статьи уже умеет работать с текстом на изображениях, а ведь ещё год назад буквы в генерациях выглядели как набор бессмысленных закорючек.

Нельзя не упомянуть и сообщество. Вокруг Midjourney сложился настоящий бомонд цифровых художников, дизайнеров интерьеров, архитекторов и маркетологов. На серверах Discord ежедневно появляются тысячи изображений, и чужие промты — это кладезь идей для новичка. Впрочем, у этой экосистемы есть и ложка дёгтя: всё взаимодействие до недавнего времени происходило исключительно через Discord, что для многих пользователей выглядело непривычно и даже отталкивающе. Сейчас появился веб-интерфейс на сайте midjourney.com, но полноценной десктопной программы по-прежнему нет.

Регистрация и первые шаги

Начать нужно с аккаунта Discord. Без него — никуда, по крайней мере пока. Процесс довольно простой: скачать клиент или открыть веб-версию, зарегистрироваться, а затем перейти на официальный сервер Midjourney по приглашению с сайта. Там, в каналах с названием «newbies», и происходят первые эксперименты. Альтернативный путь — зайти на midjourney.com и авторизоваться через тот же Discord, после чего генерировать картинки прямо в браузере. Этот вариант появился относительно недавно, и многие старожилы всё ещё предпочитают привычный дискорд-бот.

Стоит ли сразу оформлять подписку? Да. Бесплатных генераций Midjourney давно не раздаёт — пробный период свернули ещё в 2023 году из-за колоссального наплыва пользователей. Базовый тариф стартует от 10 долларов в месяц (около 200 генераций в «быстром» режиме), стандартный обойдётся в 30, а профессиональный — в 60. Разница между ними не только в количестве «быстрых» часов, но и в доступе к приватному режиму, когда ваши изображения не видит никто, кроме вас. Для коммерческого использования это довольно важный нюанс.

Как устроен промт?

Сердце всего процесса. Промт в Midjourney — это текстовое описание того, что вы хотите увидеть, плюс набор параметров, управляющих стилем и техническими характеристиками. Вводится он командой /imagine в Discord или через поле ввода на сайте. И вот тут начинаются подводные камни, потому что от формулировки зависит буквально всё.

Во-первых, язык. Midjourney лучше всего понимает английский — это его «родная» среда. Можно, конечно, писать и на русском, но результат будет менее предсказуемым. Во-вторых, структура. Опытные пользователи давно выработали негласные постулаты составления промтов: сначала идёт основной объект (что изображено), затем окружение и настроение, потом стилистика и, наконец, технические параметры. Например, промт вроде «a lonely lighthouse on a rocky cliff, stormy sea, dramatic lighting, oil painting style, —ar 16:9 —v 6.1» выдаст совершенно иной результат, чем просто «lighthouse». Разница — как между наброском на салфетке и законченным полотном.

Отдельно стоит упомянуть так называемые «отрицательные промты». Параметр —no позволяет указать, чего на картинке быть не должно. Не стоит пренебрегать этой возможностью: если вы генерируете портрет и не хотите видеть очки или головной убор — просто допишите —no glasses, hat. Это спасательный круг от нежелательных артефактов, которые нейросеть иногда добавляет по собственному «вдохновению».

Какие параметры стоит знать?

Самый частый вопрос новичков. И ответ на него довольно объёмный. Главный параметр — —ar (aspect ratio), определяющий соотношение сторон. По умолчанию Midjourney генерирует квадрат 1:1, но для обложек, баннеров и фонов рабочего стола потребуются другие пропорции. Для горизонтальных — 16:9 или 3:2, для вертикальных историй и пинов — 9:16 или 2:3. Казалось бы, мелочь, но именно от формата зависит, как нейросеть скомпонует сцену.

Следующий важный критерий — параметр —stylize (сокращённо —s), отвечающий за степень «художественности». Значение варьируется от 0 до 1000: чем выше число, тем больше нейросеть отклоняется от буквального текста в сторону собственной эстетической интерпретации. При —s 0 результат будет максимально близок к описанию, при —s 750 — Midjourney начнёт «импровизировать», добавляя драматичное освещение, глубокие тени и насыщенные цвета. Золотая середина для большинства задач — где-то в районе 100–250.

Ну и, конечно же, параметр —chaos (или —c). Он управляет разнообразием результатов в одной генерации. При значении 0 все четыре варианта будут похожи друг на друга, при 100 — настолько разными, словно их создавали разные художники. Для поиска неожиданных решений высокий хаос творит чудеса, а для предсказуемой коммерческой работы лучше его держать на низких значениях.

Стили и эстетические направления

Настоящий рай для экспериментатора. Midjourney умеет имитировать практически любой изобразительный стиль — от ренессансной фрески до глитч-арта. Дело в том, что нейросеть обучена на грандиозном массиве изображений, и она «знает» визуальный язык большинства художественных направлений. Хочется добротный акварельный пейзаж? Добавьте «watercolor painting» в промт. Нужна изысканная фотография в стиле журнала Vogue? Попробуйте «editorial fashion photography, Vogue magazine». А если грезите об аниме-иллюстрации — «anime style, Studio Ghibli» направит генерацию в нужное русло.

Однако есть нюанс. Многие считают, что достаточно просто указать имя художника — и Midjourney скопирует его манеру. На самом деле с версии 6 разработчики серьёзно ограничили прямые отсылки к живущим авторам. Этот шаг вызвал неоднозначную реакцию в сообществе, но с юридической точки зрения логика понятна. Вместо конкретных имён стоит описывать характеристики стиля: «thick impasto brushstrokes, warm palette, chiaroscuro lighting» передаст дух караваджизма без упоминания Караваджо.

Работа с изображениями-референсами

Мощнейший инструмент. Midjourney позволяет загрузить собственное изображение и использовать его как отправную точку. Для этого нужно вставить ссылку на картинку прямо перед текстовым описанием в поле промта. Нейросеть проанализирует цветовую палитру, композицию и настроение — и учтёт их при генерации. Параметр —iw (image weight) контролирует, насколько сильно референс влияет на итоговый результат: от 0.5 (слабое влияние) до 2 (очень сильное).

К слову, эту функцию часто используют дизайнеры интерьеров, когда нужно «примерить» определённую стилистику на реальное помещение. Загружается фото комнаты, в промте описывается желаемый стиль — и нейросеть выдаёт визуализацию. Результат, конечно, не заменит полноценный 3D-рендер, но для стадии концепта и презентации клиенту — вполне добротное решение. Тем более что генерация занимает около минуты, а не несколько часов, как в традиционных программах.

Апскейл и доработка

После генерации Midjourney выдаёт сетку из четырёх вариантов. Каждый из них можно «апскейлить» — увеличить до полного разрешения. В шестой версии базовое разрешение составляет 1024×1024 пикселей для квадратного формата, а после апскейла доходит до 2048×2048. Для печати большого формата этого, честно говоря, маловато. Но тут на помощь приходят сторонние апскейлеры вроде Topaz Gigapixel или встроенный инструмент Midjourney — Upscale (2x) и Upscale (4x), которые появились не так давно.

Кроме простого увеличения, доступны ещё несколько полезных функций. Vary (Subtle) и Vary (Strong) создают вариации выбранного изображения с разной степенью отклонения от оригинала. А Pan позволяет расширить картинку в любую сторону — влево, вправо, вверх или вниз, — и нейросеть дорисует недостающую часть. Выглядит впечатляюще, особенно когда из портретной картинки удаётся «вытянуть» полноценную панораму с окружением, которого на исходном изображении не было вовсе.

Стоит ли тратить время на изучение промт-инжиниринга?

Безусловно. Без понимания логики промтов Midjourney остаётся «чёрным ящиком», выдающим случайные результаты. А ведь вся суть в том, что нейросеть реагирует на каждое слово, на его позицию в предложении и даже на пунктуацию. Слово, стоящее ближе к началу промта, получает больший вес. Так что порядок описания — это не просто стилистическая прихоть, а реальный инструмент управления.

Несколько щепетильных моментов, которые всплывут рано или поздно. Запятые в промте Midjourney интерпретирует как мягкий разделитель контекстов, а двойное двоеточие :: — как жёсткий. Например, «hot dog» выдаст еду, а «hot:: dog» — собаку в жару. Кроме того, после двоеточия можно задать числовой вес: «forest::2 river::1» сделает лес доминирующим элементом, а реку — второстепенным. Этот приём — настоящий спасательный круг, когда нейросеть упорно игнорирует какую-то часть описания.

Midjourney для коммерческих задач

Тут важно разложить всё по полочкам. Согласно условиям использования, все изображения, созданные на платной подписке, можно использовать в коммерческих целях — для рекламы, упаковки, социальных сетей, мерча. Но есть оговорка для компаний с годовым доходом свыше миллиона долларов: им потребуется корпоративный тариф. И хотя это не сильно ударит по кошельку крупного бизнеса, забывать о таком условии не стоит — юридические проблемы имеют свойство всплывать в самый неподходящий момент.

Отдельная тема — авторские права. Кому принадлежит изображение, созданное нейросетью? Вопрос неоднозначный, и законодательство большинства стран пока не даёт чёткого ответа. В США, например, Бюро авторского права уже вынесло несколько решений о том, что «чисто машинные» изображения не подлежат копирайт-защите. Однако если автор вносил существенную творческую лепту — компоновал промт, дорабатывал в Photoshop, объединял несколько генераций, — ситуация может измениться в его пользу. Ведь именно степень человеческого участия тут солирует.

Сравнение с конкурентами: что выбрать?

Midjourney или DALL·E 3? Вечный спор. DALL·E интегрирован в ChatGPT и работает «из коробки» — написал запрос на русском, получил результат. Удобно. Но эстетически результаты DALL·E часто тяготеют к «стоковому» виду: чистенько, аккуратно, однако без той самой изюминки. Midjourney же выдаёт изображения с характером, с атмосферой, с каким-то внутренним «свечением». Впрочем, для инфографики и простых иллюстраций DALL·E бывает удобнее — он точнее следует инструкциям и лучше работает с текстом на картинке.

А вот со Stable Diffusion сравнивать сложнее. Это открытая модель, которую можно запустить локально на собственном компьютере (при наличии добротной видеокарты с не менее чем 8 гигабайтами видеопамяти). Никаких подписок, полная приватность, бесконечные возможности кастомизации через LoRA-модели и ControlNet. Но порог входа — внушительный. Если Midjourney осваивается за вечер, то на настройку Stable Diffusion с ComfyUI или Automatic1111 уйдёт не один день. Да и качество «из коробки» заметно уступает — без дополнительных моделей и тонкой настройки результат выглядит довольно посредственно.

Нужно отметить, что Adobe Firefly тоже набирает обороты. Его главное преимущество — обучение исключительно на лицензионных изображениях из стока Adobe, что снимает львиную долю вопросов по авторским правам. Для маркетологов и корпоративных клиентов это серьёзный аргумент. Но по выразительности и «вау-эффекту» Firefly пока что заметно отстаёт от Midjourney.

Типичные ошибки новичков

Задача не из лёгких — написать первый промт и сразу получить шедевр. Это связано с тем, что начинающие пользователи либо пишут слишком коротко («красивый дом»), либо, наоборот, перегружают описание десятками деталей, которые нейросеть просто не в состоянии совместить. Золотое правило — от 15 до 60 слов. Больше — уже перебор, меньше — слишком расплывчато.

Ещё одна распространённая ошибка — игнорирование параметра —ar. Генерация квадратного изображения для обложки YouTube-ролика или горизонтального баннера — зрелище удручающее, когда приходится потом кадрировать и терять важные элементы композиции. Не стоит забывать и про параметр —seed: если вы нашли удачную генерацию и хотите создать серию похожих изображений, фиксированный сид — ваш лучший друг. Он «замораживает» случайный начальный шум, и при одинаковом промте результат будет воспроизводимым.

Нейросеть и этика: где проходит граница?

Тема щепетильная. Midjourney запрещает генерацию контента для взрослых, насилия, а также реалистичных изображений публичных персон в компрометирующих ситуациях. Фильтры работают довольно жёстко, и при попытке обойти их аккаунт рискует получить бан — сначала временный, а при повторных нарушениях и постоянный. Многие считают, что модерация слишком строгая и мешает художественному самовыражению. Но на самом деле в эпоху дипфейков такой подход — скорее разумная мера предосторожности, чем цензура.

К тому же стоит задуматься и об ответственности перед аудиторией. Сгенерированное нейросетью изображение, выданное за реальную фотографию, способно ввести в заблуждение тысячи людей. Практика маркировки ИИ-контента пока не стала повсеместной, однако тренд движется именно в эту сторону. И тут уж каждый решает сам, насколько скрупулёзно он подходит к вопросу прозрачности.

Что ждёт Midjourney в ближайшем будущем?

Команда разработчиков анонсировала несколько грандиозных обновлений. Первое и самое ожидаемое — полноценный веб-редактор с возможностью «рисования» поверх генерации и текстового редактирования отдельных фрагментов (inpainting). Второе — видеогенерация. Буквально пару месяцев назад в сети появились тестовые ролики, созданные прототипом видеомодели Midjourney, и выглядят они впечатляюще. Конечно, до полноценного конкурента Sora от OpenAI пока далековато, но сам факт говорит о серьёзных амбициях.

Кстати, ходят слухи и о мобильном приложении, которое позволит генерировать изображения прямо со смартфона без посредничества Discord. Для обывателей это станет настоящим прорывом, ведь именно привязка к Discord до сих пор отпугивает внушительную часть потенциальной аудитории. Когда именно эти функции появятся в стабильной версии — сказать сложно, но динамика обновлений у Midjourney всегда отличалась завидной интенсивностью.

Midjourney — не просто генератор картинок, а полноценный творческий инструмент, который при грамотном подходе способен заменить часы работы иллюстратора или дизайнера. Но заменить полностью — вряд ли. Ведь за каждой хорошей генерацией всегда стоит человек с идеей.

Освоение Midjourney — процесс не столько сложный, сколько увлекательный. Первые результаты приходят быстро, а мастерство промт-инжиниринга нарабатывается за пару недель активной практики. Не стоит бояться экспериментов: пробовать разные стили, крутить параметры, смешивать несочетаемое — именно так рождаются самые неожиданные и яркие работы. Удачи в освоении этого самобытного инструмента — пусть каждая генерация приближает вас к идеальной картинке, которую вы уже видите в воображении.