Ещё пару лет назад само словосочетание «нейросеть-художник» вызывало у большинства людей скептическую усмешку — дескать, машина и рисовать-то не умеет, куда ей до живописца. А сегодня ленты социальных сетей буквально пестрят фантастическими иллюстрациями, созданными без единого мазка кисти и без малейшего навыка в Photoshop. Львиная доля этих работ — заслуга Midjourney, нейросети, которая за считанные минуты превращает текстовый запрос в картинку, способную приковать внимание даже искушённого зрителя. Но вот в чём ложка дёгтя: между «просто сгенерировал картинку» и «получил именно то, что задумал» пролегает целая пропасть из настроек, параметров и неочевидных нюансов. А потому стоит разобраться, как именно приручить этот довольно капризный инструмент, чтобы результат радовал, а не разочаровывал.
С чего начать знакомство с Midjourney?
Первая встреча с нейросетью у новичка нередко происходит через Discord — мессенджер, который для многих обывателей ассоциируется скорее с геймерами, нежели с творчеством. И всё же именно в этой среде Midjourney чувствует себя как дома. Для старта нужна учётная запись Discord и подписка на сам сервис, причём бесплатный тариф на момент написания статьи давно упразднён. Базовый план стоит около десяти долларов в месяц и даёт примерно двести генераций — для экспериментов этого хватает, но для серьёзной работы кошелёк станет ощутимо легче на тридцать или шестьдесят долларов ежемесячно. Стоит ли экономить на подписке? Зависит от задач. Если нейросеть нужна для пары открыток в месяц — базового тарифа достаточно, а вот дизайнеру или контент-менеджеру, который генерирует десятки изображений в день, без расширенного плана не обойтись.
После оплаты подписки открывается доступ к боту. Работа ведётся через команду /imagine, после которой вводится текстовое описание — так называемый промт. Именно от качества этого описания и зависит девяносто процентов результата. Да и сама логика общения с нейросетью напоминает скорее разговор с художником, чем программирование: чем точнее сформулирована мысль, тем ближе итог к задумке. Кстати, в 2024 году появилась и веб-версия на сайте midjourney.com, так что привязка к Discord постепенно ослабевает.
Промт — искусство формулировки
Задача не из лёгких. Ведь от того, какие слова окажутся в строке запроса, зависит буквально всё — от композиции до цветовой палитры. Многие считают, что достаточно написать «красивый закат над морем», и нейросеть сотворит шедевр. На самом деле такой запрос выдаст нечто усреднённое, банальное, лишённое характера. Дело в том, что Midjourney обучена на миллиардах изображений, и без конкретных указаний она тяготеет к «средней температуре по больнице» — некоему усреднённому представлению о предмете.
Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸
Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.
Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL
Добротный промт строится по довольно простой, но действенной схеме. Начать нужно с основного объекта — что именно изображено на картинке. Далее следует окружение и контекст, то есть где этот объект находится, какой антураж его окружает. Следующий важный критерий — стилистика: фотореализм, акварель, комикс, киберпанк, барокко. Ну и, наконец, настроение и освещение — утренний туман, неоновое свечение, драматичный контровой свет. Каждый из этих слоёв вносит свою лепту в итоговую картинку, и пропуск любого из них приводит к тому, что нейросеть заполняет пробел по собственному усмотрению. А это не всегда совпадает с ожиданиями.
Вместо «a cat in a garden» стоит попробовать что-то вроде «a ginger tabby cat sitting among lavender bushes, soft morning light, shallow depth of field, photographed on a 85mm lens, pastel palette». Разница в результате — колоссальная.
Отдельно стоит упомянуть порядок слов внутри промта. Midjourney придаёт больший вес словам, стоящим ближе к началу строки. Это значит, что самое важное — объект, стиль — лучше выносить вперёд, а второстепенные детали и атмосферные дополнения размещать ближе к концу. К тому же длина промта тоже играет роль: слишком короткий даёт размытый результат, слишком длинный — путает нейросеть, которая начинает «забывать» первые инструкции, пока добирается до последних. Оптимальная длина — от тридцати до семидесяти пяти слов, хотя строгого правила здесь нет.
Параметры генерации и их влияние
Помимо самого текста запроса, Midjourney предлагает целый арсенал параметров, которые дописываются через двойное тире в конце промта. И вот тут начинаются настоящие махинации с настройками, от которых результат преображается до неузнаваемости. Один из самых востребованных — —ar (aspect ratio), задающий соотношение сторон. По умолчанию нейросеть генерирует квадрат 1:1, но для баннера нужен формат 16:9, для сторис — 9:16, а для книжной обложки — 2:3. Не стоит забывать про этот параметр, иначе потом придётся обрезать картинку и терять важные детали.
Следующим идёт —stylize (или сокращённо —s), который управляет «художественностью» результата. Значение по умолчанию — сто. При нуле нейросеть максимально буквально следует промту, почти не добавляя собственного творческого видения. А вот при значении в тысячу Midjourney начинает импровизировать, добавляя декоративные элементы и усиливая эстетику. Звучит заманчиво? Безусловно. Но есть и обратная сторона медали: на высоких значениях нейросеть может проигнорировать часть вашего описания ради «красоты». Так что золотая середина — где-то между ста пятьюдесятью и четырьмястами, в зависимости от задачи.
Параметр —chaos (от нуля до ста) отвечает за разнообразие в четырёх сгенерированных вариантах. При низком значении все четыре картинки будут довольно похожи друг на друга, при высоком — каждая пойдёт в свою сторону. Это удобно на этапе поиска идеи: задал хаос на шестьдесят–семьдесят, получил россыпь непохожих вариантов, выбрал направление, а потом уже сужал запрос. А вот для финального результата хаос лучше снизить до минимума.
Что такое версии модели и зачем между ними переключаться?
С момента запуска Midjourney сменила несколько поколений модели, и каждое из них заметно отличалось от предыдущего. Буквально пару лет назад третья версия считалась вершиной возможностей, но сейчас при взгляде на её результаты невольно удивляешься — настолько далеко шагнул прогресс. Актуальная на середину 2025 года шестая версия (V6) генерирует изображения с потрясающей детализацией, куда лучше понимает текстовые инструкции и даже довольно сносно справляется с надписями внутри картинки — раньше это было ахиллесовой пятой всех генеративных нейросетей.
Переключение между версиями происходит через параметр —v (например, —v 6). Зачем вообще возвращаться к старым моделям? Иногда стилистика предыдущих версий лучше ложится на конкретную задачу. Пятая версия, к примеру, давала чуть более «живописные», менее фотореалистичные результаты, и для иллюстраций в стиле фэнтези она порой срабатывала интереснее. Впрочем, для большинства задач новейшая модель — оптимальный выбор. К слову, существует ещё режим —niji, заточенный под аниме-эстетику. Если нужен колоритный персонаж в японском стиле — это спасательный круг.
Стоит ли использовать негативные промты?
Вот тут кроется одна из тех изюминок, о которой новички узнают далеко не сразу. Параметр —no позволяет указать, чего на картинке быть не должно. Казалось бы, мелочь. Но на практике разница бросается в глаза. Допустим, генерируется интерьер в стиле лофт, а нейросеть упорно добавляет растения на каждый подоконник. Достаточно дописать —no plants, и зелень исчезнет. Или при создании портрета Midjourney почему-то рисует очки герою — —no glasses решает проблему.
Однако не стоит перебарщивать с негативными инструкциями. Ведь каждое слово в промте «расходует» внимание нейросети, и чем больше запретов, тем меньше ресурса остаётся на выполнение позитивных пожеланий. Три-четыре исключения — разумный предел. Если приходится добавлять десяток, то, скорее всего, проблема кроется в самом промте, который нужно переформулировать.
Работа с референсами и весами
Чистый текст — это полдела. Midjourney умеет принимать на вход изображение-референс, и эта функция творит настоящие чудеса. Достаточно вставить прямую ссылку на картинку перед текстовым описанием, и нейросеть будет отталкиваться от неё: перенимать цветовую гамму, общую композицию, настроение. Особый интерес вызывает параметр —iw (image weight), регулирующий степень влияния референса. При значении 0.5 нейросеть лишь слегка вдохновляется исходником, а при двух — практически копирует его стилистику.
Эту технику дизайнеры используют, чтобы выдержать единый визуальный стиль для серии иллюстраций. Например, при подготовке оформления для блога: сгенерировал одну удачную обложку, а затем скормил её как референс для следующих — и вся серия выглядит цельной. К тому же можно подать сразу два или даже три референса одновременно, и Midjourney попытается смешать их эстетику. Результат не всегда предсказуем, но порой натыкаешься на неожиданные сочетания, которые вручную бы и не придумал.
Как добиться фотореализма?
Грезить о картинке, неотличимой от фотографии, — дело нехитрое. А вот получить её — задача со своими подводными камнями. Во-первых, стоит добавлять в промт слова, связанные с фотографией: photograph, shot on Canon EOS R5, 35mm lens, f/1.8, natural lighting, RAW photo. Во-вторых, указание конкретного типа объектива влияет на перспективу и боке, а упоминание ISO и диафрагмы заставляет нейросеть имитировать характерный зернистый шум или размытие фона. Нужно отметить, что даже слово cinematic в конце промта добавляет кинематографичности: тёплые тени, контрастное освещение, глубина кадра.
Но есть и ложка дёгтя. Фотореалистичные руки и пальцы до сих пор остаются ахиллесовой пятой — шестая версия справляется лучше предшественниц, однако шесть пальцев на ладони всё ещё всплывают с неприятной регулярностью. На самом деле обойти этот нюанс помогает обрезка кадра: если крупные планы лица или торса вас устраивают, можно просто избегать композиций, где руки на первом плане. Да и в целом скрупулёзная работа с кадрированием через параметр —ar и указание close-up или medium shot сильно снижает процент артефактов.
Upscale и пост-обработка
После генерации Midjourney выдаёт сетку из четырёх картинок в относительно небольшом разрешении. Для публикации в соцсетях этого хватает, а вот для печати — нет. Кнопки U1–U4 под сеткой увеличивают выбранный вариант, но даже после апскейла разрешение не всегда дотягивает до типографских стандартов в 300 dpi. Тем более что при увеличении мелкие детали иногда «мылятся».
Здесь на помощь приходят сторонние инструменты. Один из самых популярных — Topaz Gigapixel AI, довольно мощный апскейлер, способный увеличить картинку в четыре–шесть раз без заметной потери качества. Альтернатива — бесплатный сервис upscayl с открытым кодом. Кроме того, после генерации не лишним будет подкорректировать контраст и цветовой баланс в любом редакторе, будь то Lightroom, Capture One или даже бесплатный GIMP. Нейросеть редко попадает в яблочко по цвету с первого раза, и лёгкая доработка превращает хорошую картинку в по-настоящему изысканную.
Распространённые ошибки новичков
Слишком общие запросы. Это, пожалуй, самая частая проблема. Человек пишет «beautiful landscape» и удивляется, что результат — скучный холм с облаками. Без конкретики нейросеть не знает, чего от неё хотят. А ведь именно детали — указание времени суток, типа растительности, погоды, ракурса — и отличают посредственную генерацию от впечатляющей.
Второй распространённый промах — игнорирование параметров. Новичок узнаёт команду /imagine, генерирует картинку с настройками по умолчанию и решает, что это потолок возможностей нейросети. На самом деле потолка практически нет: комбинация —s, —ar, —chaos, —no и —v открывает такое пространство для маневра, что возможности инструмента раскрываются совершенно иначе. Отдельно стоит упомянуть привычку не итерировать. Редкий промт с первого раза даёт то, что нужно. Процесс больше похож на скульптуру: отсёк лишнее, подкрутил деталь, попробовал снова. И это нормально — даже опытные пользователи тратят пять-десять итераций на одну финальную картинку.
Авторские права и этика
Тема неоднозначная. И замалчивать её не стоит. Midjourney обучена на огромном корпусе изображений, собранных из открытых источников, и вопрос о правомерности такого обучения до сих пор остаётся предметом судебных разбирательств в нескольких странах. Для коммерческого использования платная подписка формально даёт право применять сгенерированные картинки, но это правило касается только условий самого сервиса, а не локального законодательства каждой страны. Тем более что в ряде юрисдикций произведения, созданные без участия человека-автора, вообще не подлежат копирайту.
Что из этого следует на практике? Нет смысла выдавать сгенерированные картинки за ручную работу — да и репутационно это рискованно. А вот как инструмент для мозгового штурма, создания мудбордов, иллюстраций для блогов и презентаций Midjourney работает блестяще. Ну и, конечно же, не стоит генерировать изображения реальных людей без их согласия — этические подводные камни тут очевидны.
Продвинутые техники и лайфхаки
Мультипромт. Мало кто знает, что двойное двоеточие внутри промта позволяет разделить описание на независимые части и присвоить каждой свой вес. Например, hot chocolate::2 winter cabin::1 snowfall::1 заставит нейросеть сделать акцент на чашке горячего шоколада, а зимний домик и снегопад будут фоном. Без весов все три элемента конкурируют за внимание модели, и результат получается размытым.
Ещё одна добротная техника — seed. Каждая генерация получает случайное числовое зерно, и если указать конкретный —seed, можно воспроизвести практически идентичный результат при изменении одной переменной в промте. Это позволяет проводить контролируемые эксперименты: допустим, оставить ту же композицию, но сменить цветовую гамму с тёплой на холодную. Без фиксации seed сравнивать два результата бессмысленно — слишком много случайных переменных. К слову, узнать seed предыдущей генерации можно через реакцию-эмодзи ✉️ на сообщение бота в Discord.
И кое-что ещё. Параметр —tile генерирует бесшовный паттерн, который можно тиражировать по горизонтали и вертикали без видимых стыков. Для дизайнеров, работающих с текстильными принтами, упаковкой или фонами для сайтов, — настоящий кладезь возможностей. А —weird (от нуля до трёх тысяч) добавляет нетипичные, сюрреалистичные элементы. На низких значениях эффект едва заметен, на высоких — результат напоминает сны Сальвадора Дали. Впрочем, для коммерческих задач экстремальные значения редко пригождаются.
Как выстроить рабочий процесс?
Хаотичная генерация без системы — путь к разочарованию и сгоревшим минутам подписки. Опытные пользователи обычно выстраивают процесс в три этапа. Сначала — широкий поиск: пишется базовый промт с высоким —chaos, генерируется десять-пятнадцать сеток, из которых отбираются наиболее интересные направления. Затем — сужение: chaos снижается, промт уточняется конкретными деталями, добавляются негативные параметры. Ну, а на финальном этапе — шлифовка: небольшие вариации формулировок, подбор идеального seed, увеличение разрешения и пост-обработка.
Весь этот цикл для одного внушительного изображения может занять от пятнадцати минут до пары часов. И это нормально. Ведь нейросеть — не волшебная кнопка «сделай красиво», а инструмент, требующий навыка, терпения и, что немаловажно, вкуса. Да и сам процесс итераций довольно увлекателен: наблюдать, как от запроса к запросу картинка приближается к задуманному образу, — занятие, которое затягивает не хуже хорошей игры.
Midjourney продолжает стремительно развиваться, и те приёмы, которые работают сегодня, через полгода могут устареть или обрасти новыми возможностями. Но базовые постулаты — чёткий промт, осознанное использование параметров, итеративный подход — останутся актуальными вне зависимости от версии модели. Удачи в экспериментах, и пусть каждая генерация приближает вас к той самой идеальной картинке, которая запомнится надолго.

