В сети каждый день всплывают тысячи сгенерированных изображений — от фантастических пейзажей до гиперреалистичных портретов, от которых буквально мурашки по коже. Львиная доля новичков, впервые открывших Midjourney, пытается добиться чего-то подобного одной-двумя фразами на английском, а потом искренне удивляется блёклому результату. Дело в том, что нейросеть — не волшебник, а скорее добротный исполнитель, которому нужна скрупулёзная техническая задача. Чем точнее и продуманнее промпт, тем ближе итоговая картинка к тому образу, что сложился в голове. А чтобы разобраться в механике по-настоящему, стоит взять один конкретный пример и разложить его по полочкам.
Что за промпт и почему именно он?
За основу возьмём довольно распространённый запрос, который тяготеет к жанру портретной фотографии с винтажным настроением. Звучит он примерно так: «Close-up portrait of a young woman, soft natural light, grey linen curtains in the background, shot on Polaroid 600, slightly overexposed, warm muted tones, shallow depth of field, film grain». На первый взгляд — просто набор слов через запятую. Но каждый фрагмент здесь несёт свою нагрузку, и если убрать хотя бы одно словосочетание, картинка сместится в совершенно другую сторону. К слову, именно на таких «многослойных» запросах лучше всего виден принцип работы Midjourney: нейросеть не читает текст целиком, а разбивает его на смысловые токены, вес каждого из которых зависит от позиции в строке и от сочетания с соседними словами. Это связано с архитектурой диффузионной модели, где текстовый энкодер превращает фразу в числовой вектор, а генератор постепенно «проявляет» изображение из шума — почти как полароидный снимок выплывает из белой пустоты.
Крупный портрет как отправная точка
Фраза «close-up portrait» стоит в самом начале. Не случайно. Первые слова промпта получают наибольший вес в генерации, и именно они задают базовую композицию кадра. Стоит заменить «close-up» на «full-body» — и вместо лица, заполняющего восемьдесят процентов холста, вы получите фигуру в полный рост с кучей лишних деталей на фоне. А ведь задача другая: приковать внимание к глазам, к фактуре кожи, к едва заметной тени от ресниц. Нужно отметить, что Midjourney пятой и шестой версий довольно неплохо справляется с анатомией лица при крупных планах, хотя ещё пару лет назад с этим были серьёзные проблемы — лишние пальцы и «поплывший» нос считались почти нормой.
Дополняет образ уточнение «young woman». Казалось бы, мелочь. Но без указания пола и приблизительного возраста нейросеть начнёт импровизировать, и результат станет непредсказуемым. Иногда вместо женского портрета вылезает мужское лицо, иногда — ребёнок, а иногда и вовсе абстрактный силуэт. Так что конкретика здесь — не прихоть, а необходимость.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Зачем нужен мягкий естественный свет?
Освещение. Вот где кроется настоящая изюминка любого фотографического промпта. Фраза «soft natural light» — это не просто красивые слова, а прямое указание на тип светового рисунка. Мягкий свет означает отсутствие резких теней, плавные переходы от света к полутени, нежную градацию на скулах и под подбородком. Если бы вместо «soft» стояло «harsh» или «dramatic», картинка тут же приобрела бы совсем другой характер — контрастный, с глубокими чёрными провалами и выжженными бликами. И всё-таки «natural» тоже вносит свою лепту: нейросеть понимает, что источник света — окно или открытое пространство, а не студийный софтбокс с цветными фильтрами. Это тонкий нюанс, но он довольно сильно влияет на итоговое настроение снимка.
Серые занавески на заднем плане
Серые льняные занавески. Элемент, на который многие не обратят внимания, а зря. «Grey linen curtains in the background» — эта часть промпта решает сразу две задачи. Во-первых, задаёт фон. Без указания фона Midjourney сама придумает окружение, и далеко не факт, что оно впишется в задуманную атмосферу. Может появиться кирпичная стена, может — размытый городской пейзаж за окном, а может — чистая темнота. Во-вторых, серый лён — это текстура и цвет одновременно. Серый цвет приглушает общую палитру, не конкурирует с кожей модели и создаёт тот самый «мягкий» антураж, к которому тяготеет весь промпт.
Обязательно ли указывать материал ткани? Вовсе нет. Но слово «linen» добавляет зернистую фактуру — нейросеть «понимает», что это не гладкий шёлк и не тяжёлый бархат, а именно натуральная ткань с характерным переплетением нитей. Да и на контрасте с мягкой кожей лица такой фон смотрится особенно выигрышно. Ведь в портретной фотографии задний план — это не просто заполнение пустоты, а полноценный участник композиции.
Polaroid 600: больше, чем просто камера
Вот тут начинается самое интересное. Указание «shot on Polaroid 600» — это не столько про конкретную камеру, сколько про целый пласт визуальной эстетики. Polaroid 600 — культовый моментальный фотоаппарат, выпускавшийся с 1981 года, и его характерная картинка знакома даже тем, кто никогда не держал в руках настоящий полароидный снимок. Слегка выцветшие цвета, мягкий контраст, специфическое виньетирование по краям кадра, а главное — неповторимое зерно плёнки. Когда Midjourney видит название конкретной камеры или типа плёнки, модель обращается к тем тысячам изображений, на которых она обучалась, и вытаскивает оттуда характерные визуальные паттерны.
Многие считают, что достаточно написать «Polaroid style», и результат будет тот же. Но на самом деле разница ощутима. «Polaroid style» — слишком общее указание, и нейросеть может выдать что угодно: от рамки с белыми полями до современной стилизации с неоновыми оттенками. А вот конкретная модель камеры — Polaroid 600 — сужает диапазон интерпретаций. Это как сказать художнику «нарисуй масляными красками» вместо «нарисуй как-нибудь красиво». Кстати, аналогичный трюк работает и с плёночными камерами: «shot on Canon AE-1» даст один результат, «shot on Hasselblad 500C» — совершенно другой.
Что делает лёгкая переэкспозиция?
«Slightly overexposed» — ещё один щепетильный момент, который стоит разобрать отдельно. Переэкспозиция в фотографии — это когда на плёнку или матрицу попадает чуть больше света, чем нужно для «правильной» экспозиции. В результате светлые участки слегка «выгорают», тени становятся мягче, а общее впечатление от снимка — воздушнее. Для полароидной эстетики это особенно характерно: старые камеры серии 600 не отличались точностью экспозамера, и значительная часть снимков получалась именно такой — чуть засвеченной, будто пропитанной солнцем. Без этого уточнения Midjourney выдаст технически корректную экспозицию, и всё очарование «случайности» пропадёт.
Тут же стоит отметить роль «warm muted tones». Это указание на цветовую гамму — тёплую, но приглушённую. Никаких кричащих оранжевых или ядовитых жёлтых. Скорее, пыльный золотистый оттенок, переходящий в мягкий бежевый. Именно так выглядят старые полароидные снимки, пролежавшие в коробке из-под обуви лет двадцать-тридцать. Нейросеть считывает это словосочетание и корректирует цветовой баланс генерации, смещая его в сторону тёплого спектра с пониженной насыщенностью. И вот тут всплывает интересный нюанс: если одновременно указать «warm tones» и, скажем, «cool blue palette», модель запутается и выдаст непредсказуемый результат. Противоречия в промпте — одна из самых частых ошибок новичков.
Глубина резкости и зерно плёнки
Последние два элемента промпта — «shallow depth of field» и «film grain» — работают на финальную «полировку» образа. Малая глубина резкости означает, что в фокусе остаётся только лицо (а точнее — глаза), а всё остальное, включая те самые серые занавески, мягко размывается. Этот приём в фотографии называют «боке», и он безотказно создаёт ощущение интимности, камерности кадра. Midjourney довольно хорошо воспроизводит размытие заднего плана, особенно если в промпте есть прямое указание на тип камеры с крупным сенсором или широкую диафрагму.
А вот «film grain» — это та самая вишенка на торте. Зерно плёнки. Лёгкий шум, который в цифровой фотографии считают дефектом, а в аналоговой — благородной фактурой. Без зерна снимок рискует выглядеть слишком «чистым», слишком цифровым, и иллюзия полароидного кадра рассыпется. К тому же зерно добавляет тактильности: глядя на такую картинку, хочется потрогать её, как настоящую фотографию на картонной подложке. Это ведь и есть главная цель — не просто сгенерировать красивую картинку, а вызвать у зрителя эмоцию, ностальгию, ощущение чего-то настоящего.
Как порядок слов влияет на результат?
Отдельно стоит упомянуть структуру промпта в целом. Дело в том, что Midjourney присваивает больший вес словам, стоящим ближе к началу строки. Первые три-четыре токена практически определяют «скелет» изображения, а всё остальное — нюансы и детали. Именно поэтому «close-up portrait» стоит в самом начале, а «film grain» — в конце. Если бы мы поменяли их местами и написали «Film grain, warm muted tones, close-up portrait…», нейросеть в первую очередь сосредоточилась бы на текстуре зерна, а портрет мог бы стать второстепенным элементом — размытым, неакцентированным.
Впрочем, в последних версиях Midjourney (начиная с v6) алгоритм стал более «умным» в плане распознавания контекста, и позиционный вес чуть сгладился. Но привычка ставить главное вперёд всё равно остаётся хорошим тоном. Тем более что с длинными промптами (в пятнадцать-двадцать слов и больше) хвостовые элементы иногда просто игнорируются, особенно если модель «не успевает» распределить внимание. Ну и, конечно же, не стоит забывать про параметры, которые указываются через двойное тире в конце промпта: —ar 4:5 для вертикального формата, —style raw для менее «приукрашенной» генерации, —s 50 для умеренной стилизации. Эти технические хвостики не менее важны, чем сам текст запроса.
Подводные камни и типичные ошибки
Задача не из лёгких — собрать промпт, в котором все элементы дополняют друг друга и не конфликтуют. Одна из самых распространённых ошибок — перегруз. Когда в строке появляется двадцать пять и более слов, нейросеть начинает «метаться» между указаниями, и итоговое изображение превращается в невнятный компромисс. Ещё одна ложка дёгтя — использование абстрактных понятий вроде «beautiful», «amazing» или «perfect». Эти слова для модели практически бессмысленны, ведь красота — категория субъективная, а нейросеть оперирует визуальными паттернами, а не философскими концепциями. Гораздо эффективнее заменить «beautiful lighting» на «golden hour side lighting» — конкретно и однозначно.
Другой подводный камень — стилистические противоречия. Написать «Polaroid 600, 8K resolution, hyper-detailed» — это примерно то же самое, что попросить шеф-повара приготовить «домашний борщ молекулярной кухни». Полароид по определению не может быть в разрешении 8K, и нейросеть, пытаясь совместить несовместимое, выдаст нечто странное — гиперчёткий снимок с искусственным зерном, который не будет похож ни на настоящий Polaroid, ни на качественную цифровую фотографию. Не стоит гнаться за максимумом технических характеристик, если эстетика требует обратного.
Как экспериментировать с этим промптом?
Самое ценное в разборе — возможность варьировать элементы и наблюдать за результатом. Допустим, заменяем «grey linen curtains» на «rain-streaked window» — и вместо спокойного домашнего портрета получаем меланхоличный кадр с каплями дождя на стекле, которые ловят и преломляют свет. Или меняем «Polaroid 600» на «Fujifilm Instax Mini» — и цветовая гамма сместится в сторону более холодных, чуть зеленоватых тонов, характерных для этой плёнки. А если вместо «young woman» написать «elderly man with deep wrinkles», крупный план заиграет совершенно иначе — морщины, текстура кожи, седина в бороде станут главными героями кадра.
К тому же стоит поэкспериментировать с так называемыми «негативными промптами» (параметр —no). Если добавить —no smile, makeup, jewelry, можно добиться более сдержанного, «сырого» портрета без прикрас. Midjourney по умолчанию тяготеет к идеализации — модели часто получаются слишком «глянцевыми», с безупречной кожей и голливудской улыбкой. Негативный промпт позволяет убрать эту наляпистость и приблизить результат к живой, неотретушированной фотографии. Ведь именно в несовершенствах и кроется подлинное очарование полароидного снимка.
Несколько слов о версиях модели
Нельзя не упомянуть, что один и тот же промпт в разных версиях Midjourney даст совершенно разный результат. В версии 5.2 портреты получались довольно «живописными», с лёгким уклоном в иллюстрацию. Версия 6.0 сделала серьёзный скачок в сторону фотореализма — кожа стала выглядеть натуральнее, глаза приобрели глубину, а свет начал вести себя физически корректнее. Ну, а в версии 6.1 (и более поздних итерациях) модель научилась лучше работать с текстурами тканей, что для нашего промпта с серыми льняными занавесками особенно актуально. Буквально год назад тот же запрос дал бы размытое пятно вместо ткани, а сейчас видны отдельные нити и складки.
И всё же не стоит забывать, что каждая генерация — это отчасти лотерея. Даже при идеально выверенном промпте из четырёх вариантов в сетке может быть два отличных, один средних и один откровенно неудачный. Это нормально. Профессионалы, работающие с Midjourney на потоке, генерируют по десять-пятнадцать сеток на один запрос, прежде чем отберут финальный кадр. Терпение здесь — не менее важный инструмент, чем сам промпт.
Разобранный пример — это, по сути, готовый шаблон, который можно адаптировать под десятки разных задач. Хочется атмосферу семидесятых? Замена камеры на «shot on Kodak Ektachrome» и цветов на «faded vintage palette» сделает своё дело. Нужен строгий чёрно-белый портрет? Достаточно добавить «black and white, high contrast, Tri-X 400 film». Главное — понимать, за что отвечает каждый элемент, и тогда промпт из набора случайных слов превратится в точный инструмент. Удачи в экспериментах — и пусть каждая генерация приближает вас к тому самому идеальному кадру, который уже давно сложился в воображении.
