Ещё пару лет назад словосочетание «фотореалистичная нейрокартинка» вызывало у обывателя скептическую усмешку — слишком уж кукольными выглядели лица, а текстуры напоминали мыльный рендер из старых видеоигр. Но нейросети взрослеют стремительно, и сегодня Midjourney пятой-шестой версии способна выдать изображение, которое не сразу отличишь от студийного снимка, сделанного на добротный полнокадровый фотоаппарат. Львиная доля успеха при этом зависит не от магических слов в промте, а от понимания двух вещей, которые веками определяли качество любой фотографии, — света и композиции. А потому стоит разобраться, как эти физические и художественные законы работают внутри нейросети и каким образом ими можно управлять через текст.
Почему свет решает всё?
Свет в фотографии — не просто техническая необходимость. Это инструмент рассказа. Мягкие рассеянные лучи, обволакивающие модель через белую штору, создают интимное настроение, тогда как жёсткий направленный пучок в духе Караваджо превращает обычный портрет в драматическую сцену. Midjourney обучена на миллионах фотографий, и в её «памяти» каждый тип освещения прочно связан с определённой эстетикой. Дело в том, что нейросеть не рисует свет — она воспроизводит паттерны, которые видела на снимках реальных фотографов. И если грамотно сослаться на нужный паттерн, результат приковывает внимание.
Начать стоит с самого распространённого приёма — natural light. Когда в промте встречается эта фраза, алгоритм тяготеет к мягким теням, тёплой палитре и лёгкой зернистости, характерной для съёмки у окна или на улице в облачную погоду. Но нюанс в том, что «natural light» без уточнения — понятие размытое. Стоит добавить время суток. Например, golden hour sunlight моментально сдвигает цветовую температуру к 3500–4000 кельвинов и заливает сцену медовым оттенком. А overcast daylight даёт ровное бестеневое освещение, которое так ценят портретисты. Разница между двумя этими фразами — буквально два слова, а эффект разительный.
Студийные световые схемы в текстовом промте
Задача не из лёгких. Ведь нужно объяснить нейросети словами то, что фотограф настраивает руками, двигая софтбоксы и отражатели по студии. Однако Midjourney довольно хорошо понимает названия классических схем. Один из самых эффектных приёмов — Rembrandt lighting, когда на теневой стороне лица образуется характерный треугольник света под глазом. Этот приём назван в честь голландского живописца, который использовал похожее освещение ещё в XVII веке, задолго до изобретения фотоаппарата. В промте достаточно написать Rembrandt lighting, single key light from the left, и нейросеть выдаст портрет с глубокими тенями и объёмной светотеневой лепкой.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Следующий важный приём — rim light (контровой свет). Тонкий светящийся контур по краю фигуры отделяет объект от фона и придаёт снимку кинематографичность. Особенно хорошо срабатывает в связке с тёмным фоном: rim light, dark moody background, cinematic. К слову, слово cinematic в контексте Midjourney творит чудеса — оно как бы намекает алгоритму на широкий динамический диапазон, неглубокую резкость и кинокадр с соотношением сторон 2.35:1. Да и сама атмосфера картинки становится «тяжелее», серьёзнее.
Отдельно стоит упомянуть split lighting — схему, при которой лицо делится ровно пополам: одна сторона освещена, другая тонет в тени. Приём этот довольно специфический, подходит далеко не для каждого сюжета, но в портретах с характером — у музыкантов, спортсменов, персонажей с «тёмной стороной» — смотрится впечатляюще. Ну и, наконец, butterfly lighting (оно же «голливудское») — свет падает строго сверху перед лицом и оставляет симметричную тень-бабочку под носом. Эту схему в сороковые годы прошлого века активно использовали фотографы Голливуда для съёмки кинозвёзд, и Midjourney воспроизводит её весьма убедительно.
Как управлять жёсткостью и мягкостью теней?
Многие считают, что нейросеть сама «решает», какими будут тени на изображении. На самом деле, влиять на это можно и нужно. Вся суть в том, что размер источника света относительно объекта определяет жёсткость переходов от света к тени. Большой софтбокс рядом с моделью даёт мягкие, градиентные тени, а маленькая голая лампочка на расстоянии — резкие, почти графичные. В промте это передаётся словами soft diffused light (мягкий рассеянный) или harsh direct light (жёсткий прямой). Между этими двумя крайностями — целый спектр промежуточных вариантов, и стоит экспериментировать с конкретными модификаторами: softbox lighting, bare bulb, beauty dish.
Впрочем, одних лишь названий приборов иногда недостаточно. Midjourney лучше реагирует на описание эффекта, а не на техническую спецификацию. Фраза gentle light wrapping around the face (нежный свет, обволакивающий лицо) может сработать эффективнее, чем перечисление марок оборудования. Это связано с тем, что нейросеть оперирует не каталогом осветительных приборов, а визуальными ассоциациями. И когда описание апеллирует к ощущению — к теплу, мягкости, драматизму — алгоритм находит более точное соответствие в своей базе.
Композиция: правило третей и не только
Со светом разобрались, но без грамотной компоновки кадра даже идеально освещённая сцена выглядит «никак». Правило третей — пожалуй, первое, что изучают на курсах фотографии, — в Midjourney работает через указание положения объекта. Стоит написать subject placed on the left third of the frame, и нейросеть сместит главный объект влево, оставив справа «воздух» для взгляда. Но одним лишь правилом третей мир композиции не ограничивается.
Ведущие линии — ещё один мощный инструмент. Дорога, уходящая вдаль, перила лестницы, ряд фонарей — все эти элементы ведут глаз зрителя к смысловому центру кадра. В промте это передаётся фразой leading lines converging toward the subject или, проще, road leading into the distance. Нейросеть довольно чутко реагирует на такие описания и выстраивает геометрию сцены соответственно. К тому же ведущие линии сами по себе добавляют глубину — а глубина как раз и создаёт то самое ощущение «настоящей фотографии», которого так не хватает плоским нейрогенерациям.
Нельзя не упомянуть и фрейминг — приём, при котором объект «обрамляется» элементами сцены. Арка, дверной проём, ветви деревьев, оконная рама — всё это натуральные рамки внутри кадра. В промте можно написать framed by a stone archway или seen through a window, и Midjourney послушно обернёт сцену в визуальное обрамление. Эффект сильный: взгляд зрителя сразу «запирается» внутри кадра и не блуждает по периферии.
Глубина резкости и эффект боке
Размытый фон. Это, пожалуй, главный визуальный маркер, по которому мозг мгновенно считывает: «передо мной фотография, а не рисунок». Неглубокая резкость (shallow depth of field) отделяет объект от окружения и добавляет тому самому заветному фотореализму очков двадцать из десяти. В Midjourney за этот эффект отвечают сразу несколько промт-конструкций. Самая прямолинейная — shallow depth of field, f/1.4, где указание диафрагмы намекает алгоритму на конкретную степень размытия. Но можно зайти и с другой стороны: bokeh background, subject in sharp focus — тоже работает, причём иногда даже лучше.
Стоит задуматься: а всегда ли нужно размывать фон? Вовсе нет. Пейзажная фотография, например, требует максимальной резкости по всему полю кадра. И здесь на помощь приходит конструкция deep depth of field, everything in focus, f/11. Разница между этими двумя подходами — как между портретным объективом 85 мм и широкоугольником 24 мм. Ну, а Midjourney, к счастью, понимает и то, и другое.
Стоит ли указывать конкретную камеру и объектив?
Вопрос неоднозначный. В сообществе до сих пор ведутся споры: одни утверждают, что фраза shot on Canon EOS R5, 85mm f/1.2 кардинально меняет результат, другие не видят заметной разницы. По моему опыту, указание конкретного оборудования действительно влияет на картинку, но не так, как ожидает обыватель. Нейросеть не моделирует оптику Canon или Nikon — она ассоциирует название камеры с корпусом снимков, подписанных этой маркой в метаданных. А значит, shot on Hasselblad потянет картинку в сторону среднеформатной эстетики: чуть более приглушённые цвета, изысканный микроконтраст, ощущение «плёночности». Тогда как shot on Sony A7III даст более нейтральный, репортажный результат.
Кстати, упоминание объектива тоже вносит свою лепту. Широкоугольный 24mm lens — и в кадре появляются характерные перспективные искажения, «раздутый» передний план, ощущение простора. Телеобъектив 200mm lens — сжатая перспектива, плоские планы, фон буквально «наваливается» на объект. Всё это — подводные камни, которые стоит учитывать. Ведь если написать close-up portrait, 24mm, лицо может получиться с непропорционально большим носом — ровно как в реальной жизни при съёмке портрета на широкоугольник.
Цветовая температура и настроение кадра
Тёплый оранжевый свет заката и холодный синий отблеск экрана ноутбука в тёмной комнате — два мира, два настроения. Midjourney реагирует на цветовые подсказки с завидной точностью. Фраза warm color temperature, golden tones залит сцену янтарным светом, а cool blue tones, overcast mood уведёт палитру в сторону скандинавской меланхолии. Но настоящая изюминка — смешение температур в одном кадре. Когда тёплый искусственный свет из окна кафе сталкивается с холодным сумеречным небом на заднем плане, возникает тот самый «живой» контраст, который приковывает взгляд на добрые полминуты. В промте это можно описать так: warm interior light spilling onto a cold blue evening street.
Не стоит забывать и про так называемый color grading — цветокоррекцию, привычную киноиндустрии. Фразы вроде teal and orange color grading (бирюзово-оранжевая палитра, любимая Голливудом последних пятнадцати лет) или desaturated muted tones (приглушённые, почти выцветшие цвета) задают финальный «фильтр», через который зритель воспринимает всю картинку. Это тонкий слой, но именно он отличает «просто фото» от кадра с характером.
Атмосфера и текстура: пыль, дым, дождь
Чистый студийный кадр — это хорошо. Но иногда хочется чего-то более осязаемого. Тут на сцену выходят атмосферные элементы: туман, дым, пылинки в лучах света, капли дождя на стекле. Midjourney обожает такие запросы и обрабатывает их с поразительной детализацией. Фраза volumetric light with dust particles превращает обычный луч из окна в грандиозное зрелище — каждая пылинка ловит свет и превращается в крохотную звезду. А haze, atmospheric fog растворяет дальний план в дымке, усиливая воздушную перспективу.
Отдельная история — дождь и мокрые поверхности. Мокрый асфальт, отражающий неоновые вывески, — это кладезь визуальной информации: блики, отражения, насыщенные цвета. В промте достаточно добавить wet streets, reflections, after rain, и нейросеть выдаст кадр, напоминающий лучшие работы уличных фотографов. Да и сам факт мокрой поверхности «заземляет» картинку, делает её тактильно реальной. Ведь сухой идеальный мир — первый признак компьютерной графики, а грязь и влага — признак жизни.
Частые ошибки в промтах для фотореализма
Перегруз промта — первый и самый коварный враг. Когда в одну строку запихнуто пятнадцать модификаторов, нейросеть начинает «метаться» между ними и выдаёт кашу. Лучше написать пять точных слов, чем двадцать размытых. Второй подводный камень — противоречивые указания. Нет смысла просить одновременно harsh direct sunlight и soft diffused shadows. Это всё равно что сказать фотографу: «Сделай мне жёсткий свет, но чтобы тени были мягкими». Физика протестует, и нейросеть — тоже.
Ещё одна довольно распространённая ошибка — игнорирование параметра —style raw. По умолчанию Midjourney «приукрашивает» картинку, добавляя ей художественности. А для фотореализма это скорее минус, чем плюс. Параметр raw снижает степень стилизации и приближает результат к необработанному снимку. Тем более что в связке с указанием конкретной камеры этот параметр срабатывает особенно убедительно. И всё же полностью от стилизации не уйти — Midjourney всегда добавляет толику «красоты», но в режиме raw эта толика минимальна.
Как добиться текстурной детализации?
Фактура кожи. Поры, морщинки, лёгкий блеск пота на виске после пробежки — всё это мелочи, по которым мозг мгновенно определяет: «живой человек». Midjourney в последних версиях научилась прорабатывать текстуры на достойном уровне, но ей нужна подсказка. Фраза highly detailed skin texture, visible pores включает режим скрупулёзной детализации. А если добавить natural skin imperfections, то появятся веснушки, родинки, лёгкие неровности тона — те самые «несовершенства», которые и делают лицо человеческим.
Это же правило касается и тканей, металлов, дерева. Для ткани хорошо работает visible fabric weave (видимое переплетение нитей), для металла — brushed steel texture with fingerprints (текстура матовой стали с отпечатками пальцев), для дерева — weathered wood grain (состаренная древесная текстура с прожилками). Чем конкретнее описание материала, тем реалистичнее результат. Нейросеть не терпит абстракций — ей нужны зацепки, детали, привязки к физическому миру.
Финальные штрихи: параметры и соотношение сторон
Соотношение сторон кадра — деталь, о которой новички вспоминают в последнюю очередь, а зря. Стандартный квадрат 1:1 редко ассоциируется с фотореализмом (если только не снимать на среднеформатную камеру с квадратным негативом). Для портретов и вертикальных сюжетов лучше работает —ar 3:4 или —ar 2:3, для пейзажей и кинематографичных сцен — —ar 16:9 или даже —ar 21:9. Этот простой параметр задаёт «рамку», в которую нейросеть выстраивает всю композицию, и от него зависит, будет ли кадр выглядеть как случайный снимок из телефона или как осознанная работа фотографа.
Нужно отметить, что параметр —q 2 (quality) в более ранних версиях Midjourney увеличивал время генерации, но давал более детализированный результат. В актуальных версиях его влияние стало менее заметным, и всё-таки для фотореалистичных задач не стоит его игнорировать. А параметр —s (stylize) лучше держать в диапазоне 50–150 — этого достаточно для приятной картинки, но недостаточно, чтобы нейросеть «ушла в живопись». Безусловно, идеальные значения подбираются экспериментально, от сюжета к сюжету, но отправная точка именно такая.
Фотореализм в нейрогенерации — искусство на стыке технологии и классической фотографии. И чем глубже автор промтов понимает природу света, законы композиции и логику оптики, тем убедительнее получается результат. Midjourney — инструмент мощный, но слепое копирование чужих промтов без понимания механики за ними далеко не уведёт. Ну, а тем, кто готов разбираться, экспериментировать и учиться на собственных ошибках, нейросеть ответит кадрами, которые заставят усомниться даже бывалых фотографов. Удачи в этом увлекательном творческом поиске — пусть каждый новый промт приближает вас к тому самому идеальному кадру.

