Команда create в Midjourney: как правильно генерировать изображения

Нейросети для генерации картинок за последние пару лет из диковинной игрушки превратились в полноценный рабочий инструмент — дизайнеры, маркетологи и просто увлечённые люди ежедневно создают с их помощью тысячи изображений. Midjourney среди подобных сервисов занимает особое место: качество выдачи у неё стабильно высокое, а сообщество вокруг платформы разрослось до внушительных масштабов. Но вот парадокс — львиная доля новичков, оплатив подписку, тут же натыкается на одну и ту же проблему: результаты генерации выглядят совсем не так, как на вдохновляющих примерах из интернета. Дело в том, что между «ввести текст и нажать Enter» и «получить именно то, что задумано» лежит довольно ощутимая пропасть. А начать её преодолевать стоит с изучения базовой команды /create, которая с недавних пор сменила привычную многим /imagine.

Все топовые нейросети в одном месте

Что изменилось после перехода с /imagine на /create?

Долгое время работа с Midjourney строилась вокруг команды /imagine, прописанной прямо в чате Discord. Этот формат знаком всем, кто хоть раз пробовал генерировать картинки через бота. Однако в 2024 году команда разработчиков запустила собственный веб-интерфейс, и вместе с ним появилась команда /create. По сути, функция осталась прежней — пользователь вводит текстовое описание, а нейросеть на его основе рисует изображение. Но нюансов хватает. Во-первых, веб-версия предлагает более наглядную панель настроек, где параметры не нужно запоминать и вбивать вручную через двойное тире. Во-вторых, сама логика промтов немного сместилась: алгоритм стал чувствительнее к порядку слов и к структуре описания. Ну и, наконец, скорость обработки запросов на сайте ощутимо выросла по сравнению с ботом в Discord, особенно в часы пиковой нагрузки.

Стоит ли из-за этого забывать старый формат? Вовсе нет. Бот в Discord по-прежнему работает, и команда /imagine никуда не делась. Но тенденция очевидна — разработчики тяготеют к собственной платформе, и новые функции появляются там раньше. Да и само взаимодействие через веб-интерфейс для многих оказывается удобнее, чем переписка с ботом в мессенджере.

Анатомия хорошего промта

Промт — это сердце всей генерации. Можно сколько угодно крутить ползунки настроек, но без грамотного текстового описания результат будет посредственным. Вся суть в том, что Midjourney воспринимает промт не как человек — она не «понимает» смысл фразы целиком, а разбирает её на фрагменты, придавая разный вес отдельным словам и конструкциям. Именно поэтому порядок слов имеет значение. То, что стоит в начале описания, получает больший приоритет, а детали ближе к концу промта нередко отходят на второй план или игнорируются вовсе.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

С чего начинается хороший промт? С определения главного объекта. Если нужен портрет женщины в стиле арт-деко, то именно «portrait of a woman» должно стоять первым. Далее следует стиль — «art deco style» или «in the style of Alphonse Mucha», если хочется привязаться к конкретному художнику. Потом — освещение, цветовая палитра, настроение. И уже в самом конце — технические уточнения вроде «highly detailed» или «cinematic lighting». Многие новички совершают типичную ошибку: начинают промт с прилагательных типа «beautiful, amazing, stunning», которые, по сути, не несут для алгоритма никакой полезной информации. Нейросеть и без этих слов старается сделать картинку привлекательной — ведь именно на таких примерах её обучали.

Стоит ли писать промты на русском?

Короткий ответ — можно, но не стоит. Midjourney обучалась преимущественно на англоязычных описаниях и англоязычном визуальном контенте, поэтому промты на английском языке обрабатываются точнее. Когда пользователь пишет по-русски, алгоритм сначала «переводит» текст внутри себя, а уже потом интерпретирует. И на этом этапе теряются оттенки смысла. К примеру, фразу «уютная комната с тёплым светом» нейросеть может трактовать иначе, чем «cozy room with warm ambient lighting» — второй вариант даёт более предсказуемый результат. Кстати, для тех, кто с английским на «вы», существует довольно простой спасательный круг: сформулировать описание по-русски, перевести его через любой онлайн-переводчик, а затем слегка подправить ключевые слова, опираясь на словарь промтов, которых в сети сейчас — кладезь.

Параметры генерации и скрытые возможности

Голый текст без параметров — это только половина дела. Midjourney позволяет тонко настраивать генерацию через дополнительные флаги, которые дописываются в конце промта (через двойное тире в Discord или выбираются в панели веб-интерфейса). Один из самых популярных — —ar, отвечающий за соотношение сторон. По умолчанию нейросеть выдаёт квадрат 1:1, но для обложки сайта, например, куда лучше подойдёт 16:9, а для сторис в социальных сетях — 9:16. Казалось бы, мелочь, но именно этот параметр довольно часто определяет, будет ли картинка выглядеть профессионально или любительски.

Следующий важный критерий — —stylize (или сокращённо —s). Этот параметр регулирует, насколько сильно нейросеть «приукрашивает» результат по своему усмотрению. Значение по умолчанию — 100. Если выставить 0, алгоритм будет максимально точно следовать тексту промта, но картинка может выглядеть сухо. А вот при значениях 250–750 нейросеть начинает импровизировать, добавляя выразительные детали, необычное освещение и богатую палитру. Впрочем, перебарщивать тоже не стоит: при значении выше 750 результат нередко превращается в нечто вычурное, далёкое от первоначальной задумки.

Отдельно стоит упомянуть параметр —chaos. Его задача — контролировать разнообразие между четырьмя вариантами, которые нейросеть генерирует за один запрос. При нулевом значении все четыре картинки будут похожи друг на друга, как близнецы. При значении 100 — каждый вариант пойдёт в совершенно непредсказуемом направлении. Для коммерческих задач, где нужен конкретный результат, хаос лучше держать в районе 10–25. А для экспериментов и поиска идей — смело поднимать до 50 и выше.

Как использовать референсы?

Текст — это мощно, но иногда одной картинки достаточно, чтобы объяснить нейросети то, на что ушло бы три абзаца описания. Midjourney позволяет загружать изображения-референсы прямо в промт. Для этого нужно вставить ссылку на картинку перед текстовым описанием. Алгоритм проанализирует визуальную информацию — цветовую гамму, композицию, стилистику — и попытается воспроизвести похожую атмосферу в новом изображении. Это довольно мощная функция, которая особенно выручает при работе над серией картинок в едином стиле. Ведь без референса каждый новый запрос может увести генерацию в совершенно другую сторону.

Нюанс тут вот в чём. Нейросеть не копирует референс — она вдохновляется им. И степень этого вдохновения регулируется параметром —iw (image weight). По умолчанию вес изображения-референса равен 1. Если увеличить его до 2, результат будет ближе к загруженной картинке. А если снизить до 0.5, текстовый промт получит больший приоритет. На практике оптимальное значение приходится искать методом проб, потому что универсального рецепта нет — всё зависит от конкретного референса и от того, что именно из него хочется позаимствовать.

Типичные ошибки новичков

Задача не из лёгких — сразу начать получать от Midjourney то, что видишь в голове. И ошибки на первых порах неизбежны. Одна из самых распространённых — слишком длинные промты. Многие считают, что чем больше деталей описать, тем точнее будет результат. Но на самом деле всё наоборот: перегруженный промт из 60–80 слов сбивает алгоритм с толку. Нейросеть начинает «разрываться» между противоречивыми указаниями, и на выходе получается каша. Оптимальная длина промта — от 15 до 40 слов. Этого вполне достаточно, чтобы передать суть.

Другая ложка дёгтя — игнорирование негативных промтов. Параметр —no позволяет указать, чего именно на картинке быть не должно. Допустим, нужен пейзаж без людей — тогда в конце промта стоит дописать «—no people, humans, figures». Без этого уточнения нейросеть с высокой вероятностью воткнёт в кадр силуэт человека, потому что в её обучающей выборке пейзажи с людьми встречаются чаще, чем без них. К слову, этот же параметр помогает бороться с нежелательными артефактами — лишними пальцами, текстовыми элементами, водяными знаками.

Ну, а третья классическая ошибка — пренебрежение итерациями. Midjourney редко выдаёт идеальный результат с первого раза. Профессионалы обычно проходят через три-пять циклов: сначала грубый промт для определения направления, потом уточнение деталей, затем работа с вариациями (кнопки V1–V4 под сгенерированной сеткой), и уже в конце — апскейл лучшего варианта. Это не каприз и не перфекционизм. Это нормальный рабочий процесс.

Режимы и модели: что выбрать?

Midjourney за свою относительно недолгую историю успела сменить несколько версий модели. Буквально пару лет назад все работали на версии 4, а сегодня актуальна уже шестая, причём с несколькими «подверсиями» внутри. Разница между ними ощутимая. Пятая версия тяготела к фотореалистичным изображениям и неплохо справлялась с анатомией людей, но текстуры иногда выглядели «пластиковыми». Шестая версия существенно прибавила в детализации, научилась лучше работать с текстом внутри изображений (хотя до совершенства тут ещё далеко) и стала внимательнее к промтам на естественном языке.

Помимо основной модели, в Midjourney доступен режим Niji — специализированная модель для генерации изображений в стиле аниме и манги. Переключиться на неё можно через параметр —niji в конце промта. Если нужен колоритный персонаж с большими глазами и динамичной позой — Niji справится с этим заметно лучше основной модели. Но для реалистичных портретов или архитектурных визуализаций возвращаться к стандартной версии всё-таки стоит. Тем более что переключение между моделями занимает секунды.

Как добиться стилистической консистентности?

Для разовой генерации «красивой картинки» особых хитростей не нужно. А вот если задача — создать серию изображений в едином стиле (для блога, презентации или брендинга), то без дополнительных приёмов не обойтись. Первый и самый надёжный способ — использовать —sref (style reference). Этот параметр позволяет «зафиксировать» визуальный стиль, используя конкретное изображение как эталон. Все последующие генерации с тем же —sref будут тяготеть к аналогичной палитре, текстуре и общему настроению.

Второй способ — сохранять удачные промты и использовать их как шаблоны, меняя только описание объекта, но оставляя нетронутыми стилевые маркеры и параметры. К примеру, если промт «oil painting of a cat sitting on a windowsill, golden hour lighting, impressionist style —ar 3:2 —s 300» дал прекрасный результат, то для следующей генерации достаточно заменить «cat» на «dog» или «child», а остальное оставить. Разумеется, стопроцентного совпадения это не гарантирует, но стилистическое единство будет выражено довольно явно.

Подводные камни коммерческого использования

Многие грезят о том, чтобы продавать сгенерированные в Midjourney изображения на стоках или использовать их в коммерческих проектах. И формально платная подписка это позволяет — все изображения, созданные в рамках оплаченного плана, принадлежат пользователю. Но есть тонкости. На бесплатном тарифе (который, к слову, периодически появляется и исчезает) права на коммерческое использование отсутствуют. Тем более щепетильным стоит быть с промтами, содержащими имена реальных людей или отсылки к защищённым авторским правом персонажам. Midjourney не блокирует такие запросы автоматически, но юридические последствия могут оказаться вполне реальными.

Кроме того, стоит помнить о позиции крупных стоковых площадок. Некоторые из них (вроде Getty Images) по-прежнему не принимают изображения, сгенерированные нейросетями. Другие — например, Adobe Stock — создали отдельные разделы для ИИ-контента, но с обязательной маркировкой. Ситуация меняется буквально каждый квартал, так что перед массовой загрузкой материала на любую площадку нет смысла полагаться на прошлогодние правила — нужно перечитывать условия заново.

Все топовые нейросети в одном месте

Практический сценарий: от идеи до готового изображения

Абстрактные советы — это хорошо, но конкретный пример работает лучше. Допустим, нужна иллюстрация для статьи о путешествиях: вечерний вид на средиземноморский городок с черепичными крышами, тёплое освещение, лёгкая дымка. Начать стоит с короткого базового промта — «Mediterranean hillside town at sunset, terracotta rooftops, golden light, soft haze». К нему добавить соотношение сторон для горизонтального формата — «—ar 16:9». Стилизацию поднять до 200, чтобы нейросеть добавила выразительности — «—s 200». Хаос оставить на нуле, потому что направление уже понятно.

После первой генерации из четырёх вариантов выбрать наиболее удачный по композиции и нажать соответствующую кнопку вариации (V). Нейросеть создаст ещё четыре версии, отталкиваясь от выбранного варианта, но с небольшими отличиями в деталях. Из этой новой четвёрки уже можно выбирать финалиста и отправлять его на апскейл — увеличение разрешения. Весь процесс занимает от силы три-пять минут, но результат при таком подходе оказывается в разы лучше, чем при одиночном «выстреле вслепую».

Что ждёт генерацию изображений дальше?

Буквально полтора-два года назад нейросети рисовали людям по семь пальцев на руке, а текст на вывесках превращался в бессмысленный набор символов. Сегодня эти проблемы ещё не решены полностью, но прогресс впечатляющий. Midjourney с каждым обновлением модели подбирается всё ближе к тому уровню, когда сгенерированное изображение визуально невозможно отличить от реальной фотографии или работы живого иллюстратора. И скорость этого прогресса приковывает внимание — между четвёртой и шестой версией прошло меньше двух лет, а разница между ними грандиозная.

Освоение команды /create и всего арсенала параметров — это вложение времени, которое окупается очень быстро. Да и сам процесс творчества через промты затягивает не хуже любой добротной игры. Так что не стоит бояться экспериментов: пробовать разные стили, крутить ползунки, смешивать референсы с текстом. Каждая неудачная генерация — тоже опыт, и он приближает к тому моменту, когда нейросеть начнёт выдавать именно то, что задумано. Удачи в освоении этого самобытного инструмента — результаты точно порадуют.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *