Как сделать реалистичное фото с помощью Midjourney

Ещё пару лет назад словосочетание «нейросеть рисует фотографию» вызывало у большинства ироничную ухмылку — мол, до настоящего снимка этим алгоритмам как до Луны пешком. И ведь доля правды в этом была: ранние генерации напоминали скорее сюрреалистичные коллажи с шестью пальцами на руках и расплывшимися зрачками. Но технологии двигались вперёд со скоростью, которую мало кто предвидел. Midjourney версии 6 и выше научился выдавать картинки, от настоящих фотографий практически неотличимые — и опытному глазу порой приходится долго вглядываться, чтобы заметить подвох. Однако реалистичный результат не рождается по щелчку: без грамотно составленного промта нейросеть всё ещё норовит скатиться в свою привычную «цифровую живопись». А потому стоит разобраться, какие именно приёмы превращают генерацию в убедительную фотореалистичную картинку.

Почему Midjourney по умолчанию не делает «фото»?

Вся суть в том, что нейросеть обучалась на гигантском массиве изображений — от ренессансной живописи до рекламных постеров. Когда пользователь вводит короткий запрос вроде «девушка в парке», алгоритм тяготеет к усреднённой эстетике, которая ближе к цифровой иллюстрации. Яркие, насыщенные цвета, мягкое равномерное освещение, идеально гладкая кожа — всё это бросается в глаза и сразу выдаёт генерацию. Настоящая фотография же полна несовершенств. На ней присутствуют хроматические аберрации, лёгкий шум матрицы, микроразмытие в зонах вне фокуса. И именно эти «дефекты» мозг человека воспринимает как маркеры реальности. Без прямого указания на такие нюансы Midjourney просто не догадается их добавить.

Промт — фундамент реализма

Сердце любой генерации. С чего начинается грамотный промт для фотореалистичного изображения? С определения жанра. Не стоит писать размытое «realistic photo» — нейросеть на это реагирует довольно вяло. Куда лучше работает конкретная отсылка к технике и стилю съёмки. Например, «candid street photography» или «editorial portrait shot on 35mm film». Такая формулировка сразу задаёт алгоритму нужный вектор, потому что в обучающей выборке подобные описания привязаны к совершенно определённому визуальному ряду. К слову, упоминание конкретной камеры творит чудеса. Фраза «shot on Canon EOS R5, 85mm f/1.4» — не просто красивые слова; нейросеть «вспоминает» характерную для этого объектива глубину резкости, боке и цветопередачу. А вот если написать «professional photo» без уточнений, результат выйдет глянцевым, но неживым — слишком стерильным, лишённым той самой колоритной текстуры.

Отдельно стоит упомянуть описание освещения. Это, пожалуй, самый щепетильный момент во всей конструкции промта. Вместо абстрактного «good lighting» гораздо эффективнее указать время суток и направление света — «golden hour, sidelit, long shadows on pavement». Или, допустим, «overcast flat lighting, soft diffused shadows» для пасмурного дня. Ведь именно свет определяет, будет ли изображение выглядеть как живой кадр или как рендер из видеоигры.

Какие параметры помогают добиться правдоподобности?

Железные настройки. Midjourney предлагает несколько технических рычагов, и не стоит ими пренебрегать. Во-первых, параметр —style raw снижает «художественное вмешательство» алгоритма — нейросеть перестаёт приукрашивать картинку и ближе следует буквальному описанию. Во-вторых, значение —stylize (или —s) стоит выставить в диапазоне от 50 до 150: низкие значения делают результат более «документальным», менее стилизованным. Ну и, наконец, соотношение сторон —ar тоже вносит свою лепту. Формат 3:2 или 4:3 — привычные пропорции реальных фотоаппаратов, и на подсознательном уровне зритель воспринимает такой кадр как настоящий снимок. А вот квадратный формат 1:1 чаще ассоциируется с Instagram-обработкой и дизайнерскими плашками.

Нужно отметить, что версия модели тоже имеет значение. Midjourney v6.1 и новее справляются с текстурой кожи, отражениями в глазах и мелкими деталями одежды несравнимо лучше предшественников. Если доступна более свежая версия — нет смысла экономить и откатываться на старые модели.

Детали, которые выдают подделку

Руки. Даже в последних версиях Midjourney с руками дело обстоит сложнее, чем с лицами. Шесть пальцев, сросшиеся фаланги, неестественный угол запястья — всё это всплывает с завидной регулярностью. Впрочем, есть хитрость: если поза персонажа предполагает спрятанные руки (карманы, скрещённые за спиной, удержание предмета), проблема отпадает сама собой. Это не махинация и не обман — фотографы-портретисты точно так же выбирают позы, скрывающие неловкие жесты.

Следующий подводный камень — текст на изображении. Любые надписи, вывески, номера машин нейросеть воспроизводит с ошибками: буквы плывут, слова искажаются. Тем более что даже в версии 6 генерация латинского текста нестабильна, а кириллица и вовсе превращается в нечитаемую кашу. Если на планируемом снимке предполагается вывеска магазина или журнальная обложка, надпись лучше добавить позже в графическом редакторе. Да и фон стоит проверить на повторяющиеся элементы: иногда алгоритм клонирует одинаковые деревья или окна, создавая эффект «копи-пасты», который натренированный глаз замечает мгновенно.

Стоит ли описывать «несовершенства» напрямую?

Безусловно. И в этом — одна из самых неоднозначных, но действенных стратегий. Настоящая фотография редко бывает идеальной. На ней встречается лёгкий пересвет от окна, зерно плёнки при высоком ISO, хроматические аберрации на краях кадра. Добавление в промт фраз вроде «slight grain, ISO 800», «lens flare», «subtle chromatic aberration» или «slightly overexposed highlights» заставляет Midjourney имитировать физику реального объектива. Результат приковывает внимание именно своей естественностью. Дело в том, что человеческий мозг привык к оптическим артефактам — они для него не дефект, а доказательство подлинности. А идеально чистая, лишённая шума картинка, наоборот, вызывает подсознательное недоверие.

К тому же довольно неплохо работает указание на конкретный тип плёнки. Kodak Portra 400 даёт мягкие тёплые тона и характерную зернистость, Fujifilm Superia — более холодный зеленоватый оттенок. Нейросеть «знает» эти названия и подстраивает цветовой профиль генерации. Вещь, на первый взгляд, мелкая, но именно она отделяет добротную фотографическую стилизацию от очередного «красивого рендера».

Окружение и контекст кадра

Пустой портрет на размытом фоне — это ещё не фотография. Это, скорее, заготовка. Реалистичный снимок всегда существует в контексте: на заднем плане виден кусок тротуара, стоит забытая кем-то чашка кофе, через окно пробивается луч вечернего солнца. Львиная доля убедительности приходится именно на такие мелочи. Стоит добавить в промт бытовые детали — «crumpled napkin on the table», «rain-wet asphalt reflecting neon signs», «a dog passing in the background, slightly blurred». Эти элементы не просто заполняют пространство. Они рассказывают историю. А фотография без истории — всего лишь изображение.

Ну, а если речь идёт о пейзажной съёмке, атмосферные условия становятся решающим фактором. Туман, дымка, моросящий дождь, пыль в воздухе — всё это создаёт глубину и воздушную перспективу. Без них кадр выглядит плоским, словно декорация. Промт «early morning fog in a pine forest, volumetric light through canopy, dew on ferns» выдаст совершенно иной результат, чем сухое «forest photo». Разница — грандиозная.

Как работать с лицами и портретами?

Портрет — жанр одновременно самый эффектный и самый коварный. На лице человека зритель мгновенно считывает любую фальшь: чуть слишком гладкая кожа, неестественно симметричные черты, «стеклянный» взгляд. Чтобы этого избежать, промт должен содержать указания на несовершенство. Звучит парадоксально? Ничуть. Фразы «subtle skin texture, pores visible, natural skin imperfections» или «asymmetrical features» помогают нейросети уйти от глянцевого идеала в сторону живого лица. А указание на возраст («woman in her early 40s, laugh lines around eyes») добавляет те самые морщинки и складки, которые делают лицо настоящим.

Кстати, отражения в зрачках — ещё один нюанс, о котором мало кто задумывается. На настоящей фотографии в глазах человека виден источник света: окно, софтбокс, небо. Midjourney иногда генерирует однородные тёмные зрачки без отражений, и это моментально выбивает из ощущения реальности. Указание «catchlight in eyes» решает эту проблему довольно элегантно. Мелочь, а работает.

Постобработка: доводим до ума

Даже самый скрупулёзный промт не гарантирует стопроцентный результат с первого раза. И это нормально. Обычно из четырёх вариантов (а Midjourney генерирует именно четыре) реалистичным выглядит один, максимум два. Остальные уходят в «мусор». Дальше начинается работа руками. Первым делом стоит масштабировать выбранное изображение через встроенный upscale — разрешение возрастает, детали прорисовываются чётче. Но на этом этапе могут всплыть новые артефакты: размноженные ресницы, лишний палец, деформированное ухо. Всё это правится в Photoshop или бесплатных аналогах вроде GIMP за считаные минуты.

Следующий шаг — цветокоррекция. Midjourney склонен к чуть повышенной насыщенности, а реальные фотографии, особенно снятые на плёнку или при естественном свете, обычно мягче по палитре. Небольшое снижение Vibrance и Saturation в Lightroom, добавление кривой тонов с приподнятыми тенями (эффект «выгоревшей плёнки») — и картинка мгновенно теряет свой цифровой лоск. Да и лёгкое виньетирование по краям кадра не помешает — оно имитирует оптические свойства реального объектива и сужает внимание зрителя к центру композиции.

Структура промта: собираем пазл

Здесь не стоит гнаться за длиной ради длины. Но и слишком короткий промт — ловушка. Оптимальный рабочий шаблон складывается из нескольких смысловых блоков, записанных через запятую в одну строку. Начинается всё с указания типа изображения — «candid photograph» или «documentary-style portrait». Затем следует описание субъекта с характерными деталями: возраст, одежда, поза, выражение лица. После — окружение и фон. Потом — освещение. И завершает промт техническая часть: тип камеры, объектив, плёнка или ISO, а также параметры самого Midjourney (—ar 3:2 —style raw —s 80).

Важный нюанс: порядок слов в промте влияет на приоритет. То, что стоит ближе к началу, алгоритм «слышит» громче. Поэтому ведущее слово — всегда жанр съёмки, а технические параметры — в конце. И ещё один маленький секрет: отрицательные промты через —no помогают убрать типичные «болезни» генерации. Фраза «—no illustration, painting, cartoon, blurry, deformed hands» действует как фильтр, отсекающий нежелательные направления. Не панацея, но спасательный круг в сложных случаях.

Какие жанры фотографии удаются лучше всего?

Уличная фотография. Вот где Midjourney по-настоящему раскрывается. Случайные прохожие, городской антураж, мокрый асфальт — всё это нейросеть воспроизводит с внушительной точностью. Дело в том, что в обучающей выборке колоссальное количество уличных снимков, и алгоритм выучил их эстетику практически наизусть. Промт вроде «candid street photography, Tokyo, Shinjuku crossing at dusk, motion blur on pedestrians, neon reflections, Leica M10, 28mm» способен выдать кадр, от реального практически неотличимый.

Довольно неплохо генерируются и фуд-фотографии — тарелка с завтраком, чашка латте с пенкой, разделочная доска с овощами. Этот жанр прощает мелкие неточности в деталях, потому что зритель концентрируется на текстурах и цвете. А вот с групповыми портретами (больше трёх человек) всё-таки бывают проблемы: лица начинают «плавить», конечности путаются, у кого-то пропадает ухо. Тем более что контролировать позу каждого персонажа в одном промте — задача не из лёгких.

Этика и подводные камни фотореализма

Нельзя не затронуть и обратную сторону медали. Способность нейросети генерировать убедительные «фотографии» людей, которых не существует, порождает серьёзные вопросы. Фейковые новости, поддельные профили в соцсетях, мошеннические объявления — всё это становится проще с каждым обновлением модели. Многие считают, что бороться с этим бесполезно, но на самом деле уже появляются инструменты детекции: от метаданных C2PA, встраиваемых в изображение самим Midjourney, до специализированных нейросетей-определителей. Впрочем, гонка вооружений продолжается, и здесь однозначного победителя пока нет.

Для добросовестного пользователя же важно помнить простое правило: использовать фотореалистичные генерации в коммерческих проектах стоит с пометкой об искусственном происхождении. Это не столько юридическое требование (хотя в ряде стран уже и юридическое), сколько вопрос репутации. Да и обыватель, наткнувшись на откровенно фейковое «фото» без подписи, теряет доверие к источнику раз и навсегда.

Фотореалистичная генерация в Midjourney — навык, который оттачивается десятками экспериментов, сотнями промтов и бесконечной работой над деталями. Но каждый новый удачный кадр приносит то самое удовольствие, которое знакомо любому фотографу: ты поймал момент. Пусть и момент, созданный алгоритмом. Удачи в освоении — и пусть ваши генерации приковывают взгляд так же крепко, как настоящий добротный снимок.