Ещё пару лет назад само словосочетание «нейросеть-художник» вызывало у обывателя скептическую ухмылку, а сегодня лента любой соцсети пестрит картинками, сгенерированными за считаные секунды. Midjourney среди подобных инструментов занимает особое место — именно эта нейросеть приковывает внимание и новичков, и профессиональных иллюстраторов своей способностью выдавать на выходе действительно впечатляющие изображения. Но вся суть в том, что без грамотного промта даже самый мощный алгоритм выдаст нечто невнятное, далёкое от задуманного. А значит, разобраться в тонкостях составления текстовых запросов стоит ещё до первого эксперимента с ботом.
Что такое промт и почему от него зависит всё?
Промт (от английского prompt — подсказка) — это текстовая инструкция, которую пользователь отправляет нейросети. Казалось бы, дело нехитрое: написал пару слов, нажал Enter, получил картинку. На практике же между коротким запросом «красивый закат» и скрупулёзно выстроенной фразой с указанием стиля, освещения, ракурса и палитры — пропасть. Ведь Midjourney не умеет читать мысли. Она интерпретирует каждое слово буквально, выстраивая визуальный ряд на основе миллиардов изученных изображений. И если в запросе нет конкретики, алгоритм заполнит пустоты самостоятельно — результат при этом бывает довольно непредсказуемым. К тому же, нейросеть тяготеет к определённым «любимым» решениям: яркие цвета, центральная композиция, гладкие текстуры. Без точного промта именно такой усреднённый результат и окажется на экране.
Анатомия хорошего запроса
С чего начать? С понимания структуры. Добротный промт для Midjourney складывается из нескольких смысловых блоков, вплетённых в одну строку. Первым идёт основной объект — то, что должно солировать в кадре. Это может быть персонаж, пейзаж, предмет или абстрактная сцена. Далее следует окружение и контекст: где происходит действие, какое время суток, что находится на заднем плане. Третий важный элемент — стилистика, и здесь кладезь возможностей просто колоссальный: от масляной живописи эпохи Ренессанса до кибер-панковой эстетики 80-х. Ну и, наконец, технические параметры — соотношение сторон, версия модели, степень «художественной вольности» (параметр —stylize). Все эти блоки не стоит разделять абзацами или какими-то специальными символами — нейросеть воспринимает промт как единый текстовый поток, где каждое слово вносит свою лепту в итоговую картинку.
Стоит ли писать на русском?
Вопрос не праздный. Midjourney обучена преимущественно на англоязычных описаниях, поэтому львиная доля пользователей составляет промты на английском. Означает ли это, что русский язык бесполезен? Вовсе нет. Нейросеть вполне способна распознать запрос на русском, однако нюансы при переводе неизбежно теряются. Слово «уютный», к примеру, алгоритм может интерпретировать совсем не так, как его понимает русскоговорящий человек. А вот английское cozy нейросеть привяжет к тёплым тонам, мягкому свету и текстурам вроде дерева или шерсти — потому что на таких ассоциациях она и натренирована. Так что для точного результата всё-таки лучше формулировать запрос по-английски, даже если придётся воспользоваться переводчиком. Но простые эксперименты на русском тоже могут приятно удивить — да и само по себе это довольно увлекательное занятие.
Все топовые нейросети в одной подписке! 🚀
Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».
Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL
Примеры промтов: от простого к сложному
Теория без практики мертва. Начнём с самого элементарного запроса: a white cat sitting on a windowsill, morning light. Результат будет симпатичным, но предсказуемым — нейросеть выдаст нечто «открыточное», без характера. А теперь тот же сюжет, но с деталями: a fluffy white Persian cat sitting on an old wooden windowsill, golden hour light streaming through dusty glass, watercolor style, muted palette, soft focus background. Разница бросается в глаза моментально. Во втором случае алгоритм получил информацию о породе, материале подоконника, качестве света, стиле и цветовой гамме — и каждый из этих нюансов сместил результат в нужную сторону.
Ещё один показательный пример. Допустим, нужна иллюстрация для статьи о путешествиях. Короткий промт beautiful mountain landscape даст открытку. А вот развёрнутый запрос dramatic alpine landscape at dawn, jagged peaks covered with fresh snow, a narrow winding trail leading into fog, cinematic composition, shot on Hasselblad, 4K, cool blue and violet tones — совсем другое дело. Здесь уже появился антураж: и туман, и тропа, и даже имитация конкретной камеры, которая задаёт определённую «плёночную» эстетику. Нужно отметить, что упоминание камер и объективов — один из самых действенных приёмов. Midjourney отлично «знает», как выглядит снимок, сделанный на Leica или Canon 85mm f/1.2, и подстраивает рендер соответственно.
Параметры, о которых забывают новички
Подводные камни. Многие начинающие пользователи сосредотачиваются исключительно на описании сцены и напрочь игнорируют технические параметры, которые дописываются в конце промта через двойное тире. Один из самых недооценённых — —ar (aspect ratio), задающий пропорции изображения. По умолчанию Midjourney генерирует квадратную картинку 1:1, но для обложки блога куда лучше подходит 16:9, а для истории в соцсети — 9:16. Казалось бы, мелочь, но именно она определяет, насколько органично иллюстрация впишется в макет.
Следующий важный параметр — —stylize (или сокращённо —s). Он регулирует степень художественной интерпретации. При низких значениях (от 0 до 100) нейросеть старается следовать промту максимально буквально. При высоких (750 и выше) алгоритм «отпускает фантазию» и может выдать совершенно неожиданный, но зачастую очень колоритный результат. Новичкам стоит поэкспериментировать с обоими крайностями, чтобы почувствовать диапазон. Отдельно стоит упомянуть —chaos, управляющий разнообразием четырёх вариантов в одной генерации. Высокий хаос — от 50 до 100 — превращает каждый сет в лотерею, где один результат может оказаться провальным, а другой — настоящей находкой.
Как описать стиль и не запутаться?
Здесь-то и начинаются настоящие махинации с языком. Дело в том, что Midjourney распознаёт сотни стилистических направлений, имён художников и даже целых культурных эпох. Хочется чего-то в духе студии Ghibli? Достаточно добавить in the style of Studio Ghibli. Тяготеете к мрачной готике? Dark gothic aesthetic, inspired by Beksinski развернёт алгоритм в нужную сторону. Но есть и ложка дёгтя: с каждой новой версией модели некоторые имена художников перестают работать из-за этических ограничений. И тогда на помощь приходят описательные конструкции — вместо конкретного имени можно указать характерные черты стиля: surreal melting forms, eerie organic textures, monochromatic palette with red accents.
К слову, смешивание стилей — отдельное удовольствие. Запрос a medieval castle, cyberpunk neon lighting, ukiyo-e flat composition звучит абсурдно, но на выходе может получиться нечто завораживающее. Нейросеть не скована рамками здравого смысла — она просто визуализирует то, что ей велено. И именно в этом её изюминка. Впрочем, не стоит перебарщивать с количеством стилей в одном промте: два-три — оптимум, дальше начинается визуальная каша, разобрать которую сложно даже опытному глазу.
Негативный промт и вес слов
Не всегда достаточно сказать нейросети, что нужно нарисовать. Иногда куда важнее объяснить, чего рисовать не стоит. Для этого в Midjourney существует параметр —no, работающий как негативный промт. Скажем, нужен портрет без очков — добавляем —no glasses. Или пейзаж без людей — —no people, crowd. Инструмент довольно мощный, хотя и не всесильный: нейросеть порой игнорирует запрет, особенно если запрещённый объект слишком тесно связан с остальными элементами сцены. Ведь алгоритм строит картинку целиком, а не собирает её из отдельных кубиков.
Другой изящный инструмент — так называемый вес слов, задаваемый через двойное двоеточие. Конструкция forest::2 river::1 скажет нейросети, что лес в два раза важнее реки, и тот займёт большую часть кадра. А можно пойти дальше и задать отрицательный вес: forest::2 river::-0.5 — река при этом практически исчезнет из сцены. Механизм щепетильный, требующий экспериментов, но в умелых руках он творит чудеса. Особенно полезен этот приём при работе со сложными многоэлементными сценами, где один объект постоянно «перетягивает одеяло» на себя.
Секреты, которые редко упоминают
Некоторые тонкости генерации всплывают только после сотен экспериментов. Во-первых, порядок слов в промте имеет значение. То, что стоит ближе к началу, нейросеть воспринимает как более приоритетное. Поэтому основной объект лучше ставить первым, а второстепенные детали — ближе к концу строки. Во-вторых, конкретные числа работают лучше абстрактных описаний: three red roses даст куда более предсказуемый результат, чем a few roses (хотя с количеством нейросеть всё ещё справляется неважно — это её давний подводный камень).
Ну, а третий нюанс — эмоциональные и атмосферные прилагательные. Слова вроде eerie, nostalgic, whimsical, ominous смещают общий настрой генерации сильнее, чем может показаться. Буквально одно прилагательное способно превратить солнечный пейзаж в тревожную сцену с надвигающейся грозой. Кроме того, стоит задуматься об освещении: volumetric lighting, rim light, chiaroscuro — каждый из этих терминов разворачивает рендер в свою сторону. Профессиональные добротные иллюстрации почти всегда содержат в промте хотя бы одно указание на тип света. Без него нейросеть выбирает «среднее по больнице» — плоское фронтальное освещение, от которого веет скукой.
Как работать с изображением-референсом?
Мало кто из новичков знает, что Midjourney умеет принимать на вход не только текст, но и изображение. Достаточно вставить ссылку на картинку перед текстовым промтом — и нейросеть использует её как визуальный ориентир. Это спасательный круг для ситуаций, когда словами описать желаемый результат практически невозможно. Допустим, хочется сгенерировать портрет «в стилистике» конкретной фотографии: загрузил референс, добавил текстовое описание, и алгоритм подхватил цветовую гамму, композицию или настроение оригинала.
Тут же стоит упомянуть параметр —iw (image weight), который определяет, насколько сильно нейросеть будет опираться на визуальный референс. Значение по умолчанию равно 1, но его можно увеличить до 2 — тогда изображение станет доминирующим ориентиром. Или снизить до 0.5 — и текстовая часть промта перевесит. На самом деле, именно этот баланс между текстом и картинкой позволяет добиваться самых изысканных результатов. А если нужна ещё большая гибкость, можно загрузить сразу два-три референса — нейросеть «усреднит» их черты и выдаст нечто среднее, порой весьма неожиданное.
Частые ошибки в промтах
Задача не из лёгких — описать ошибки, не скатившись в банальности. И всё же попробую. Самая распространённая проблема — избыточность. Когда промт растягивается на двести слов, нейросеть начинает путаться в приоритетах. Она пытается «впихнуть» в кадр всё перечисленное и в итоге не даёт ничего толкового. Оптимальная длина промта — от 30 до 75 слов. Этого хватает, чтобы передать суть и не утонуть в деталях.
Вторая типичная ошибка — использование абстрактных понятий без визуальной привязки. Слово freedom ничего не скажет алгоритму, а вот a woman with outstretched arms standing on a cliff edge, wind blowing her hair — совсем другое дело. Нейросеть мыслит образами, а не философскими категориями. Да и с текстом на изображениях пока всё неоднозначно: Midjourney научилась генерировать буквы (особенно в версии 6 и новее), но ошибки всё ещё встречаются довольно часто. Не стоит рассчитывать на идеальную надпись с первого раза — скорее всего, придётся прогнать генерацию два-три раза, а потом подправить результат вручную.
Промты для разных задач
Потребности у людей разные, и от задачи структура промта может меняться кардинально. Для реалистичного портрета лучше всего работает связка: описание внешности персонажа, указание ракурса, тип камеры и объектива, характер освещения. Пример: portrait of a middle-aged man with grey beard, deep wrinkles, looking into camera, shot on Canon EOS R5 with 85mm f/1.4, natural window light, shallow depth of field. Результат получится настолько «фотографичным», что без подписи отличить его от реального снимка сможет не каждый.
Для иллюстраций к детским книгам подход совсем иной. Здесь на первый план выходят мягкие текстуры, приглушённые пастельные тона и стилизация под акварель или карандашный рисунок. Промт вроде a tiny fox cub exploring a mushroom forest, soft pastel watercolor, children book illustration, warm gentle lighting, whimsical atmosphere выдаст картинку, от которой даже взрослый умилится. Ну, а для концептов интерьера нейросеть особенно хороша: достаточно указать стиль помещения, ракурс, время суток и пару акцентных деталей — и готовый мудборд окажется в руках дизайнера за минуту вместо нескольких часов работы в фоторедакторе. Тем более, что Midjourney отлично «понимает» архитектурную терминологию: Scandinavian minimalism, wabi-sabi aesthetics, brutalist concrete interior — всё это алгоритм отработает безупречно.
Версии модели и их особенности
Нельзя не упомянуть один критически важный момент — версия модели влияет на результат не меньше, чем сам промт. Буквально год назад все работали на пятой версии (v5), которая славилась реалистичностью, но порой выдавала «пластиковые» лица и слишком гладкие текстуры. Шестая версия (v6) сделала большой шаг вперёд: научилась генерировать текст на изображениях, лучше понимать длинные промты и точнее интерпретировать пространственные отношения между объектами. А модель Niji — отдельная история, созданная специально для аниме-стилистики. Если нужна иллюстрация в духе японской анимации, переключаться на Niji нужно обязательно: стандартная модель справится хуже.
Стоит отметить, что при смене версии одинаковый промт может дать совершенно разные результаты. Это связано с тем, что каждая модель натренирована на немного отличающемся наборе изображений и по-разному расставляет приоритеты. Поэтому опытные пользователи нередко прогоняют один и тот же промт через две-три версии, а потом выбирают лучший вариант. Процесс не сложный, но кропотливый.
Итерации и апскейл
Первый результат редко оказывается идеальным. Это нормально. Midjourney специально выдаёт сетку из четырёх вариантов, чтобы пользователь мог выбрать наиболее удачный и «развить» его дальше. Кнопки V1–V4 создают вариации выбранного изображения с небольшими изменениями, а U1–U4 увеличивают картинку до более высокого разрешения. И вот тут кроется нюанс: после апскейла становятся доступны дополнительные инструменты — Vary (Subtle) для мягких правок и Vary (Strong) для серьёзной переработки, а также Zoom Out, расширяющий границы кадра за пределы оригинальной композиции. Последний инструмент особенно полезен, когда объект оказался «зажат» слишком тесными рамками.
Для тех, кому нужно ещё более точное управление, существует Vary (Region) — возможность выделить кистью конкретную область изображения и перегенерировать только её, оставив остальное нетронутым. Это спасение в ситуациях, когда 90% картинки устраивает, а оставшиеся 10% — нет. Буквально пару лет назад о такой функции можно было только грезить, а сейчас она доступна каждому подписчику.
Сколько стоит подписка и стоит ли она того?
Бесплатный доступ к Midjourney давно канул в лету — нейросеть пережила такой наплыв пользователей, что бесплатный тариф стал убыточным. Сейчас минимальный план стоит около десяти долларов в месяц и включает порядка двухсот генераций. Для знакомства с инструментом этого хватит, но для серьёзной работы кошелёк станет легче: стандартный тариф (тридцать долларов) даёт пятнадцать часов быстрой генерации, а профессиональный (шестьдесят долларов) — тридцать часов плюс «стелс-режим», при котором сгенерированные изображения не попадают в общую галерею. Бьёт ли это по бюджету? Зависит от задач. Для фрилансера или дизайнера, экономящего десятки часов ручной работы, даже профессиональный тариф — скромное вложение.
Впрочем, есть и альтернативный путь: использовать ботов в Discord-серверах, где доступ к Midjourney включён в общую подписку сервера. Но тут свои подводные камни — очереди, ограничения и отсутствие стелс-режима. Так что для серьёзных проектов личная подписка всё-таки предпочтительнее.
Мир AI-генерации развивается стремительно, и промты, которые творили чудеса полгода назад, сегодня могут работать иначе. Не стоит зубрить шаблонные формулы — гораздо ценнее понять логику, по которой нейросеть «думает», и тогда каждый новый запрос превратится в маленький творческий эксперимент. Удачи в генерациях — пусть каждый промт попадает точно в цель, а результат неизменно радует глаз.

