Как сгенерировать реалистичное фото через Midjourney

Ещё пару лет назад само словосочетание «нейросеть рисует фотографию» звучало как фантастика из дешёвого сериала, а сегодня лента любой социальной сети пестрит картинками, которые с первого взгляда от настоящих снимков не отличить. Люди грезят о студийных портретах без студии, о пейзажах из мест, где никогда не бывали, и о предметных фото для интернет-магазинов, на которые не пришлось тратить ни рубля за аренду фотозоны. Midjourney в этом смысле — настоящий кладезь возможностей, но именно реализм даётся нейросети сложнее всего: стоит чуть промахнуться с промптом, и вместо живого кадра на выходе получается глянцевая «пластиковая» картинка, в которой за версту виден искусственный интеллект. А чтобы такого не случилось, нужно разобраться в нескольких довольно тонких нюансах работы с этим инструментом.

Все топовые нейросети в одном месте

Что вообще понимать под «реалистичным фото»?

Казалось бы, ответ очевиден — снимок, похожий на настоящий. Но дьявол, как водится, прячется в деталях. Реализм складывается из целого набора мелочей: естественное освещение, правдоподобная текстура кожи или материала, отсутствие «шестого пальца» на руке, корректная глубина резкости и, конечно же, общая атмосфера кадра, которую сложно описать словами, но легко почувствовать глазом. Midjourney по умолчанию тяготеет к иллюстративному стилю — красивому, но откровенно «нарисованному». Ведь движок обучался на миллионах произведений цифрового арта, а не только на фотостоках. Именно поэтому без специальных указаний в промпте нейросеть выдаёт скорее концепт-арт, нежели фотографию из камеры Canon с объективом 85 мм.

Версия Midjourney и выбор модели

Не стоит забывать, что результат напрямую зависит от версии движка. Буквально в 2022 году третья версия Midjourney выдавала изображения, которые и близко не дотягивали до фотореализма — размытые лица, странные пропорции, «каша» на заднем плане. Сейчас же ситуация изменилась кардинально. Пятая и шестая версии совершили грандиозный скачок именно в сторону реалистичных текстур и анатомической корректности. Поэтому первое, с чего стоит начать, — убедиться, что в настройках выбрана актуальная модель. В Discord-клиенте Midjourney за это отвечает параметр —v 6.1 (или самая свежая на момент генерации), который дописывается в конец промпта. К слову, ещё существует режим —style raw, снижающий «художественную» обработку и приближающий результат к документальному снимку. Этот режим — настоящий спасательный круг для тех, кому нужна именно фото-эстетика.

Промпт — фундамент всего

Вот тут начинается самое интересное. Львиная доля успеха зависит от того, как именно сформулирован запрос к нейросети. И дело не в длине текста, а в его точности. Многие новички совершают одну и ту же ошибку: пишут нечто вроде «beautiful woman, realistic photo» и ждут чуда. А чуда не происходит. Потому что Midjourney нужны конкретные зацепки — указание на тип камеры, фокусное расстояние, характер света, даже марку плёнки, если речь идёт о стилизации под аналоговую съёмку.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Разберём механику чуть подробнее. Во-первых, в промпте стоит обозначить сам формат — photo или photograph, а не «image» или «picture». Это сразу задаёт нейросети верное направление. Во-вторых, невероятно важно указать оптику: «shot on Canon EOS R5, 85mm f/1.4» или «Nikon D850, 35mm lens». Дело в том, что каждая связка «камера + объектив» несёт в себе определённый визуальный почерк — боке, виньетирование, хроматические аберрации. Нейросеть «знает» эти нюансы из обучающей выборки и воспроизводит их весьма убедительно. Ну и, наконец, добавление слов «RAW photo», «unedited», «candid» или «documentary style» ещё сильнее толкает результат в сторону правдоподобности.

Как работать с освещением в промпте?

Свет — это то, что отличает хорошую фотографию от посредственной. В реальном мире фотограф тратит часы на выстраивание схемы освещения, и Midjourney здесь не исключение — только вместо софтбоксов и отражателей приходится орудовать словами. «Soft natural light» даёт мягкий рассеянный свет, характерный для пасмурного дня или окна с тюлевыми шторами. «Golden hour lighting» воспроизводит тёплые закатные тона с длинными тенями. А «harsh direct sunlight» — резкий контрастный свет, какой бывает в полдень где-нибудь на юге.

Отдельно стоит упомянуть студийные схемы. Если нужен портрет с чётким рисунком света, в промпт можно вписать «Rembrandt lighting» или «butterfly lighting» — это классические постановочные схемы, которые нейросеть распознаёт безошибочно. Впрочем, не стоит перебарщивать с количеством световых указаний в одном запросе: два-три параметра вполне достаточно. Иначе движок начинает «путаться», и на выходе получается нечто невразумительное — ни студия, ни улица.

Подводные камни с людьми и анатомией

Руки. Вечная боль нейросетей. Хотя в шестой версии Midjourney ситуация стала заметно лучше, всё ещё периодически всплывают артефакты — лишние фаланги, сросшиеся пальцы, странные изгибы запястий. Полностью избавиться от этого пока невозможно, но минимизировать риск — вполне реально. Стоит задуматься о композиции: если руки не играют в кадре смысловой роли, проще их «спрятать» — указать в промпте «hands in pockets», «arms crossed» или «close-up portrait» с кадрированием по грудь.

С лицами дело обстоит чуть проще, но свои нюансы тоже есть. Глаза — первое, на что обращает внимание зритель. В неудачных генерациях зрачки бывают разного размера, радужки — разного цвета, а взгляд направлен «в никуда». Тут помогает указание «eye contact with camera» или «looking directly at viewer». Кожа — ещё один щепетильный момент. По умолчанию Midjourney любит сглаживать текстуру до состояния фарфора. Чтобы вернуть естественность, стоит добавить «skin texture», «pores visible», «imperfect skin». Да, звучит контринтуитивно — просить нейросеть сделать кожу «несовершенной». Но именно эти мелкие несовершенства и создают эффект подлинности.

Негативные промпты и параметры управления

В Midjourney нет классического негативного промпта, как в Stable Diffusion, зато есть параметр —no, который позволяет исключить нежелательные элементы. Например, «—no cartoon, illustration, painting, blur, watermark» — довольно действенная связка, отсекающая типичные «нефотографические» стили. Работает ли это идеально? Нет. Но разницу между результатом с этим параметром и без него замечаешь сразу — особенно в текстурах и цветопередаче.

Ещё один важный инструмент — параметр —s (stylization). По умолчанию его значение равно ста, и при таком раскладе нейросеть вносит довольно много собственной «художественной отсебятины». Для реалистичных фото значение лучше снизить до 20–50. Картинка становится менее «вылизанной», зато куда более правдоподобной. К тому же существует параметр —q (quality): значение 2 увеличивает время генерации, но повышает детализацию. Для реализма — самое то.

Стоит ли использовать референсные изображения?

Однозначно да. Это один из самых мощных приёмов, о котором многие почему-то забывают. Midjourney позволяет подгрузить изображение по ссылке прямо в промпт, и нейросеть будет использовать его как визуальный ориентир. Хочется, чтобы результат напоминал снимок с конкретного фотостока или был выдержан в стилистике определённого фотографа? Достаточно вставить URL референса перед текстовым описанием. А параметр —iw (image weight) со значением от 0.5 до 2 регулирует, насколько сильно нейросеть будет «опираться» на загруженную картинку. При значении 1.5–2 влияние референса становится доминирующим, и стиль результата почти полностью копирует оригинал.

Впрочем, тут есть ложка дёгтя. Если референс сам по себе иллюстративный или мультяшный, то и результат потянется в ту же сторону, какие бы слова про «realistic photo» ни фигурировали в тексте запроса. Поэтому в качестве референса стоит подбирать именно фотографии — желательно с тем типом света и настроения, которые нужны в финальном результате.

Формат, разрешение и соотношение сторон

Мелочь, казалось бы. Но соотношение сторон кадра влияет на восприятие реалистичности гораздо сильнее, чем может показаться. Квадратный формат (1:1), который Midjourney использует по умолчанию, — довольно редкое явление в реальной фотографии. Настоящие снимки чаще всего имеют пропорции 3:2 (классика для зеркальных камер) или 4:3 (стандарт для смартфонов и беззеркалок). Параметр —ar 3:2 или —ar 4:5 мгновенно добавляет кадру «фотографичности». И это не самовнушение — нейросеть при горизонтальном или вертикальном формате иначе выстраивает композицию, ведь обучалась она в том числе на миллионах реальных снимков с такими пропорциями.

Постобработка — финальный штрих

Думать, что одной генерации достаточно, — распространённое заблуждение. Даже лучший результат из Midjourney нуждается в доработке, если цель — обмануть внимательный глаз. Дело в том, что нейросеть всё ещё оставляет характерные «цифровые» следы: чуть перенасыщенные цвета, слишком идеальные градиенты на небе, микроскопические артефакты на границах объектов. Довольно часто бросается в глаза неестественная симметрия лица или слишком равномерное размытие фона.

Тут на помощь приходят привычные фоторедакторы. В Lightroom или даже бесплатном Snapseed стоит слегка снизить насыщенность (на 5–10%), добавить лёгкое зерно плёнки, чуть «увести» баланс белого в тёплую или холодную сторону. Эти крохотные несовершенства — именно то, что делает кадр живым. Ведь настоящая фотография никогда не бывает «идеальной»: в ней всегда присутствует шум матрицы, хроматические аберрации на краях кадра, едва заметное виньетирование. И если добавить эти артефакты вручную, результат станет практически неотличим от реального снимка.

Примеры рабочих промптов

Теория без практики — пустой звук. Поэтому разберём несколько конкретных формулировок, которые стабильно дают добротный фотореалистичный результат. Для портрета хорошо работает связка вроде «candid photo of a 30-year-old man sitting in a cafe, natural window light, shot on Fujifilm X-T4, 56mm f/1.2, shallow depth of field, skin texture, film grain —ar 3:2 —s 30 —style raw —v 6.1 —no illustration, cartoon, painting». Обратите внимание: здесь указан возраст (конкретика!), место, источник света, камера с объективом, а также характерные «фотографические» маркеры.

Для предметной съёмки — скажем, флакона парфюма — подойдёт нечто вроде «product photography of a glass perfume bottle on marble surface, soft studio lighting, two softboxes, slight reflections, shot on Phase One IQ4, 120mm macro, 8K resolution —ar 4:5 —s 25 —style raw —no digital art, 3d render». Здесь изюминка в упоминании конкретной среднеформатной камеры Phase One — нейросеть «знает» характерную для неё детализацию и глубину цвета, поэтому и результат получается соответствующим. Ну, а для пейзажа стоит попробовать «landscape photograph of foggy mountain valley at sunrise, aerial perspective, mist in the trees, shot on Sony A7R IV, 24mm f/2.8, golden warm tones, National Geographic style —ar 16:9 —s 40 —style raw —no painting, illustration».

Все топовые нейросети в одном месте

Чего не стоит ожидать?

Реалистичность. Даже при скрупулёзной работе над промптом результат не всегда оправдывает ожидания с первого раза. Midjourney генерирует четыре варианта за одну итерацию, и довольно часто лишь один из них оказывается по-настоящему убедительным. Остальные три могут содержать тот самый «шестой палец», неестественный блик или просто странную композицию. Это нормально. Профессионалы, которые используют нейросеть для коммерческих задач, порой делают по 20–30 генераций, прежде чем получают тот самый идеальный кадр. И это всё равно в десятки раз быстрее и дешевле, чем организовывать полноценную фотосъёмку.

А ещё не стоит гнаться за абсолютной неотличимостью от реального снимка. На самом деле задача чуть иная — создать изображение, которое воспринимается как фотография на эмоциональном уровне. Мозг человека оценивает реализм не попиксельно, а целостно: свет, настроение, текстуры, композиция. И если все эти компоненты «звучат» гармонично, зритель принимает картинку за фото, даже не задумываясь.

Этические нюансы

Нельзя не упомянуть и обратную сторону медали. Чем реалистичнее становятся генерации, тем острее встаёт вопрос ответственности. Создать убедительный «снимок» несуществующего человека — дело пяти минут. И если для стоковой фотографии или рекламного макета это вполне безобидно, то для дезинформации или подделки документов — уже совсем другая история. Многие платформы сейчас требуют маркировать контент, созданный при помощи ИИ, и это, безусловно, правильный шаг. Тем более что технологии детектирования тоже не стоят на месте, и обе стороны этой «гонки вооружений» развиваются параллельно.

Midjourney — мощный инструмент, но именно инструмент, а не волшебная кнопка. Овладеть им до уровня, когда результат стабильно выдаёт фотореалистичные изображения, можно за пару недель активной практики. Главное — не бояться экспериментировать с параметрами, запоминать удачные формулировки и относиться к каждой генерации как к черновику, который всегда можно улучшить. Удачи в освоении этого по-настоящему увлекательного ремесла — результаты наверняка приятно удивят.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *