Нейросети для генерации изображений за последние пару лет превратились из забавной игрушки в полноценный рабочий инструмент дизайнеров, маркетологов и просто творческих людей. Midjourney среди них занимает особое место — результаты этой нейросети приковывают внимание даже скептиков, а количество пользователей давно перевалило за шестнадцать миллионов. Но вот парадокс: львиная доля новичков тратит десятки попыток, прежде чем получит хоть что-то похожее на задуманное. Промт за промтом, вариация за вариацией — и кошелёк становится легче, а удовлетворения от картинки так и нет. Дело в том, что генерация изображений по текстовому запросу — процесс не сложный, но довольно щепетильный, и подходить к нему стоит с пониманием внутренней логики инструмента. А начать стоит с самого фундамента — грамотного составления промта.
Что такое промт и почему он решает всё?
Промт — это текстовый запрос, который пользователь отправляет нейросети. По сути, набор слов, фраз и параметров, описывающих желаемый результат. Звучит просто. Однако именно в этой кажущейся простоте и кроется главный подводный камень. Midjourney не читает текст так, как его воспринимает человек. Нейросеть разбивает запрос на токены — отдельные смысловые единицы — и присваивает каждому из них определённый вес. Слова, стоящие ближе к началу промта, получают больший приоритет. Это связано с тем, что архитектура модели тяготеет к первым элементам последовательности, постепенно «ослабляя» внимание к концу строки. Ведь именно так устроен механизм внимания (attention) в трансформерных моделях. Поэтому порядок слов в запросе — не прихоть, а стратегическое решение.
Многие считают, что достаточно написать «красивый пейзаж с горами на закате» — и нейросеть выдаст шедевр. На самом деле такой промт слишком расплывчат. Слово «красивый» для алгоритма не несёт почти никакой визуальной информации. А вот конкретное указание на стиль, освещение, ракурс и цветовую палитру творит чудеса. Вместо абстрактного «красивый» стоит задуматься: что именно делает картинку красивой в моём понимании? Тёплые золотистые тона? Драматичное контрастное освещение? Минимализм композиции? Нужно отметить, что каждый из этих нюансов формулируется отдельными словами, и пропуск хотя бы одного из них может увести результат совсем в другую сторону.
Структура идеального запроса
Хороший промт — не хаотичный набор прилагательных. За ним стоит довольно чёткая внутренняя структура. Первым идёт основной объект или сцена: то, что должно солировать в кадре. Затем — стилистическое направление, которое задаёт общий антураж. Следом описываются детали освещения и атмосферы. Ну и, наконец, технические параметры — соотношение сторон, версия модели, степень стилизации. Именно такая последовательность позволяет нейросети «считывать» замысел автора с минимальными искажениями.
Нереальный визуал и кинематографичное видео в пару кликов 🎬
Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!
Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL
Разберём на конкретном примере. Допустим, хочется получить портрет пожилого рыбака на фоне моря в стиле кинематографической фотографии. Слабый промт выглядел бы так: «old fisherman near the sea, cinematic». Результат будет неплохим, но непредсказуемым — нейросеть сама додумает освещение, ракурс, детализацию одежды. А вот более скрупулёзный подход меняет картину кардинально: «close-up portrait of a weathered old fisherman, deep wrinkles, salt-and-pepper beard, golden hour light from the left, Kodak Portra 400 film grain, shallow depth of field, Mediterranean sea background softly blurred, cinematic color grading». Разница колоссальная. Во втором случае каждому элементу изображения задан вектор, и пространства для «фантазии» у алгоритма остаётся ровно столько, сколько нужно для художественной вариативности.
Стоит ли писать промты на русском?
Вопрос не праздный. Midjourney обучена преимущественно на англоязычных описаниях, привязанных к гигантским массивам изображений из интернета. Русскоязычные промты нейросеть понимает, но обрабатывает через внутренний перевод, и на этом этапе часть смысловых оттенков неизбежно теряется. Особый интерес вызывает вот какой нюанс: одно и то же русское слово может иметь несколько английских эквивалентов с разными визуальными коннотациями. «Мрачный» — это gloomy, dark, sinister или somber? Каждое из этих слов даст принципиально другую атмосферу на выходе. Поэтому писать промты на английском всё-таки предпочтительнее. Да и результат получается точнее.
Но есть и другая сторона медали. Не каждый владеет английским на уровне, позволяющем жонглировать стилистическими синонимами. Спасательный круг в такой ситуации — сервисы-переводчики промтов и готовые библиотеки запросов. К слову, на таких платформах, как PromptHero и Lexica, можно найти тысячи работающих промтов с примерами результатов. Это настоящий кладезь вдохновения для тех, кто только начинает осваивать генерацию.
Параметры, которые меняют всё
Самый изысканный промт может разочаровать, если технические параметры выставлены неверно. Midjourney предлагает целый арсенал настроек, и разбираться в них стоит с самого начала. Один из самых влиятельных параметров — —ar (aspect ratio), отвечающий за соотношение сторон изображения. По умолчанию картинка генерируется квадратной (1:1), но для пейзажей куда лучше подходит 16:9, а для портретов — 2:3 или 9:16. Неочевидная деталь: смена пропорций влияет не только на обрезку кадра, но и на саму композицию, которую выстраивает нейросеть.
Следующий важный критерий — параметр —stylize (или сокращённо —s). Его значение варьируется от 0 до 1000, и оно определяет, насколько сильно Midjourney будет «приукрашивать» изображение собственным художественным видением. При низких значениях (скажем, 50–100) результат максимально близок к буквальному описанию промта. При высоких (750–1000) нейросеть берёт на себя роль арт-директора и добавляет драматизма, насыщенности, неожиданных деталей. Для коммерческих задач — каталогов, мокапов, визуализации интерьеров — лучше держать —s ниже 250. А вот для концептуального арта или обложек значения 600–1000 зачастую выдают грандиозный результат.
Отдельно стоит упомянуть параметр —chaos. Именно он регулирует степень разнообразия между четырьмя вариантами изображения в одной генерации. При нулевом значении все четыре картинки будут довольно похожи друг на друга. При значении 80–100 результаты окажутся совершенно разными по композиции, настроению и цветовой гамме. На ранних этапах поиска идеи высокий хаос помогает, а когда направление уже найдено — его стоит снижать до минимума.
Как описать стиль, чтобы нейросеть поняла?
Тонкая работа. Ведь само понятие «стиль» для нейросети — это совокупность визуальных паттернов, привязанных к именам художников, фотографов, кинофильмов и эпох. Хочешь получить картинку в духе ренессансной живописи? Достаточно добавить «in the style of Caravaggio, chiaroscuro lighting» — и Midjourney воспроизведёт характерный контраст света и тени, плотную масляную фактуру, глубокий добротный колорит. Тяготеешь к минимализму? Слова «clean lines, negative space, Scandinavian design» направят генерацию в нужное русло.
Впрочем, не всегда нужно ссылаться на конкретных авторов. Иногда куда эффективнее описать «материальность» картинки. Фраза «shot on 35mm film, slight grain, natural colors» мгновенно добавляет ощущение плёночной фотографии. А указание «digital painting, matte finish, concept art for AAA game» переключает нейросеть в режим игровой графики. К тому же смешение стилей — один из самых мощных приёмов. Комбинация «Art Nouveau ornaments + cyberpunk cityscape» может дать результат, от которого перехватывает дыхание. Многие этого не знают, но именно стилистические коллизии — когда сталкиваются две противоположные эпохи — генерируют самые яркие, запоминающиеся образы.
Негативные промты и вес слов
Задача не из лёгких — объяснить нейросети, чего ты не хочешь видеть на картинке. Midjourney поддерживает параметр —no, после которого перечисляются нежелательные элементы. Например, «—no text, watermark, blurry, extra fingers» поможет избежать типичных артефактов. Это не гарантия, конечно, но вероятность чистого результата возрастает ощутимо. Кстати, лишние пальцы на руках — легендарная проблема всех нейросетей для генерации картинок — в пятой и шестой версиях Midjourney встречается заметно реже, чем раньше. Но расслабляться не стоит: при сложных позах и переплетённых руках ошибки всё ещё всплывают.
Ещё один мощный инструмент — управление весом отдельных слов через двойное двоеточие. Конструкция «sunset::2 mountains::1 river::0.5» говорит нейросети, что закат в два раза важнее гор, а река — второстепенный элемент. Вся суть в том, что без расстановки весов Midjourney самостоятельно решает, что главное, а что фоновое. И далеко не всегда её «решение» совпадает с вашим замыслом. Освоив эту механику, можно добиться контроля над композицией, недоступного при обычных текстовых описаниях.
Референсы и команда /describe
Буквально год назад единственным способом общения с Midjourney был чистый текст. Сейчас ситуация иная. Нейросеть научилась «читать» загруженные изображения и использовать их как визуальный ориентир. Достаточно вставить ссылку на картинку в начало промта — и алгоритм подхватит цветовую гамму, настроение, композиционное решение. Это не копирование, а именно вдохновение: Midjourney извлекает общую стилистику и накладывает её на текстовое описание. Приём особенно хорош, когда словами описать желаемую атмосферу затруднительно.
А вот обратный процесс — команда /describe — помогает разложить по полочкам чужие работы. Загружаешь понравившееся изображение, и нейросеть возвращает четыре текстовых промта, которые (теоретически) могут воспроизвести нечто подобное. Это настоящий самобытный учебный инструмент. Нужно отметить, что предложенные промты далеки от совершенства — они скорее отправная точка, чем готовый рецепт. Но сам процесс «обратной разборки» колоссально расширяет словарный запас и помогает понять, какие именно слова вызывают тот или иной визуальный эффект.
Распространённые ошибки новичков
Перегруженность промта. Это, пожалуй, самая частая проблема. Новичок стремится описать каждую мелочь — цвет пуговиц, форму облаков, текстуру травы, выражение глаз — и в итоге нейросеть «тонет» в деталях, не понимая, что главное. Правило довольно простое: один промт — один чёткий фокус. Если хочется сложную сцену с множеством персонажей и элементов, лучше генерировать компоненты по отдельности, а потом собирать коллаж вручную или через инструменты вроде inpainting. Да и результат в таком случае получается чище.
Другая типичная ловушка — избыточная абстрактность. Фразы вроде «beautiful, amazing, stunning, breathtaking» в промте занимают место, но почти не влияют на визуальный результат. Нейросеть не понимает эмоциональных эпитетов без привязки к конкретным визуальным свойствам. «Stunning» для неё — пустой звук. А вот «vibrant teal and coral color palette» — вполне осязаемая инструкция. Нельзя не упомянуть и привычку дублировать синонимы: писать «detailed, intricate, highly detailed, ultra-detailed» — всё равно что четырежды повторять одно и то же. Хватит одного слова. Тем более, что свободное пространство промта можно заполнить гораздо более полезными указаниями.
И ещё один неочевидный промах — игнорирование команды /settings. В настройках профиля можно выбрать версию модели, базовый уровень стилизации и режим генерации (raw, standard). Многие месяцами сидят на дефолтных параметрах, даже не подозревая, что переключение в режим —style raw убирает «фирменный» глянец Midjourney и выдаёт более реалистичную, фотографически честную картинку. Для продуктовых визуализаций и архитектурных рендеров разница бросается в глаза.
Версии Midjourney: что изменилось?
С момента запуска в 2022 году нейросеть прошла колоссальный путь. Третья версия, с которой начинало большинство пользователей, генерировала изображения с характерной «мечтательной» размытостью — неплохо для абстрактного арта, но для чего-то реалистичного годилась слабо. Четвёртая версия совершила качественный скачок в детализации, а пятая научилась рисовать правдоподобные руки и лица (хотя и не без оговорок). Шестая же версия, появившаяся в конце 2023-го, стала настоящим прорывом в понимании текста — нейросеть наконец начала корректно воспроизводить надписи на изображениях и точнее следовать длинным промтам.
К слову, не стоит гнаться за самой свежей версией для любых задач. Иногда более ранние модели дают интересный художественный эффект, которого не добиться от новой. Пятая версия, например, всё ещё выдаёт более живописные, «картинные» результаты в стилях фэнтези и научной фантастики. А версия —niji, созданная совместно с Spellbrush, остаётся лучшим выбором для аниме-стилистики и иллюстраций в японской эстетике. Впрочем, для большинства коммерческих задач актуальная версия — оптимальный выбор.
Итерации и доработка: путь к идеалу
Даже идеально составленный промт не всегда попадает в цель с первого раза. Это нормально. Но количество итераций можно сократить до минимума, если освоить несколько приёмов доработки. Во-первых, кнопки V1–V4 под сгенерированным набором позволяют создать вариации понравившегося изображения, сохраняя его общую композицию, но меняя детали. Во-вторых, функция Vary (Region) — внутренний инпейнтинг — даёт возможность перегенерировать только выделенную область картинки, не трогая остальное. Ну и, наконец, Zoom Out расширяет кадр за пределы исходных границ, дорисовывая окружение. Этот инструмент особенно хорош, когда портрет получился отличный, а хочется видеть ещё и фон.
Стоит отметить, что процесс доработки — не признак провала. Скорее наоборот. Профессионалы, работающие с Midjourney на потоке, относятся к первой генерации как к черновому наброску. Суть не в том, чтобы получить финальный результат одним запросом, а в том, чтобы максимально приблизить этот черновик к задуманному. И уже от него — двигаться к совершенству за две-три итерации, а не за двадцать. Вся разница между новичком и опытным пользователем именно в этом.
Секреты, о которых мало кто говорит
Освещение. Вот что разделяет посредственную генерацию и по-настоящему изысканную картинку. Добавление в промт указания на тип света — «Rembrandt lighting», «golden hour», «overcast diffused light», «neon rim light» — кардинально меняет настроение. Безусловно, Midjourney и без подсказок добавит какое-то освещение, но оно будет «среднестатистическим», нейтральным. А ведь именно свет делает фотографию живой, объёмной, эмоциональной. Не стоит забывать и о направлении: «light from below» создаёт тревожный, драматичный эффект, а «backlit silhouette» — романтичный графический контур.
Ещё одна изюминка, которую стоит взять на вооружение, — указание на конкретную камеру или объектив. Фраза «shot on Canon EOS R5, 85mm f/1.2» даёт нейросети чёткий ориентир по глубине резкости, характеру размытия фона (боке) и общей «зернистости» кадра. Звучит как махинация, но работает безотказно. Дело в том, что в обучающей выборке Midjourney содержатся миллионы фотографий с EXIF-метаданными, и нейросеть ассоциирует названия камер с определёнными визуальными характеристиками. Canon 5D даст «тёплый репортажный» стиль, Hasselblad — среднеформатную детализацию с мягкими переходами тонов, а Fujifilm X-T4 — характерные «плёночные» цвета прямо из коробки.
Коммерческое использование и авторские права
Вопрос неоднозначный. С юридической точки зрения ситуация пока не устоялась — законодательства большинства стран попросту не успевают за технологиями. Midjourney в своих условиях использования разрешает коммерческое применение сгенерированных изображений для подписчиков платных тарифов. Однако не стоит забывать: если в промте упоминаются реальные бренды, логотипы или живущие знаменитости — изображение может нарушать чужие права на интеллектуальную собственность или право на собственное изображение. Тем более что суды по таким делам уже идут в нескольких юрисдикциях.
Для коммерческих проектов (рекламных баннеров, обложек, иллюстраций к статьям) стоит дополнительно обрабатывать сгенерированное изображение в Photoshop или аналогах. Это не только улучшает качество, но и создаёт «слой авторской переработки», что формально усиливает ваши права на конечный продукт. Само собой, для внутренних презентаций, мудбордов и концептов подобная перестраховка избыточна — тут генерация прямиком из Midjourney вполне подходит.
Генерация изображений с помощью нейросетей — навык, который, как и любой другой, оттачивается практикой. С каждым новым промтом понимание логики Midjourney становится глубже, словарный запас для описания визуальных эффектов — богаче, а количество попыток до идеального результата — меньше. Через пару недель активной работы разница между «до» и «после» порадует даже самого взыскательного перфекциониста. Удачи в освоении этого грандиозного инструмента — пусть первая же генерация попадёт точно в цель.

