Идеальный промт для Midjourney: генерация реалистичного фото

Казалось бы, нейросеть и реализм — вещи из разных вселенных. Ещё пару лет назад сгенерированные картинки выдавали себя на раз: шесть пальцев на руке, расплывшиеся буквы на вывесках, странный блеск в глазах персонажей — всё это бросалось в глаза даже обывателю. Но Midjourney версии 6 и выше перевернула представление о возможностях генеративных моделей. Сегодня грамотно составленный промт способен выдать изображение, которое довольно сложно отличить от кадра, снятого на добротный полнокадровый фотоаппарат. Однако «грамотно составленный» — вот где зарыта львиная доля подводных камней, и именно об этих нюансах стоит поговорить подробнее.

Почему Midjourney путает «красиво» и «реалистично»?

Дело в том, что нейросеть по умолчанию тяготеет к эстетике. Она обучена на миллионах изображений, среди которых огромный пласт — иллюстрации, арты, фэнтези-концепты. Когда пользователь пишет что-то вроде «beautiful woman in a park», алгоритм радостно выдаёт глянцевую картинку с идеальной кожей, нереально насыщенными цветами и мягким кинематографическим боке. Выглядит впечатляюще? Безусловно. Но к реалистичной фотографии это имеет такое же отношение, как постер Marvel — к документальному кино. Вся суть в том, что модель нужно буквально «приземлить», заставить отказаться от привычной наляпистости и вычурности. И делается это не одним волшебным словом, а целой системой указаний внутри промта.

Анатомия промта: из чего он складывается

Начать нужно с понимания структуры. Промт для Midjourney — это не просто описание желаемой картинки. Это скрупулезно выстроенная инструкция, в которой каждый блок отвечает за свой «слой» итогового результата. Первый блок — сам сюжет, то есть что именно изображено на снимке. Второй — стилистические указания: тип камеры, объектив, освещение. Третий — технические параметры, такие как соотношение сторон и версия модели. И ну и, наконец, четвёртый — негативные инструкции, то есть всё, от чего стоит сознательно отказаться. Пропуск любого из этих блоков — и результат рискует скатиться в ту самую «красивую иллюстрацию», от которой мы пытаемся уйти.

К слову, порядок слов внутри промта тоже имеет значение. Midjourney больше «внимания» уделяет тому, что стоит ближе к началу строки. Поэтому самое важное — сюжетное описание — всегда идёт первым. А вот технические параметры вроде —ar 3:2 или —v 6.1 спокойно размещаются в самом конце.

Все лучшие нейросети мира теперь в твоём кармане! ⚡

Тексты, топовое видео, картинки и аудио. Самые мощные версии GPT, Claude, Midjourney, Sora, Kling и еще 90+ ИИ-моделей собраны в одном месте. Работает невероятно быстро: через удобный сайт или прямо в Telegram. Больше никаких блокировок, VPN, иностранных карт и переплат.

Жми на ссылку ниже и забирай свои бесплатные генерации для тест-драйва платформы 👉 https://clck.ru/3RNCRL

Сюжет и контекст: не «что», а «как именно»

Расплывчатые формулировки. Вот главный враг реалистичной генерации. Фраза «a man sitting in a cafe» оставляет нейросети слишком много свободы — и она этой свободой непременно воспользуется, добавив от себя драматичное освещение, чрезмерную глубину резкости или неестественно чистый интерьер. Вместо этого стоит описывать сцену так, как её описал бы фотограф коллеге: «a middle-aged man with grey stubble, wearing a wrinkled linen shirt, sitting at a small round table in a busy European sidewalk cafe, half-empty espresso cup in front of him, afternoon light, candid shot». Чувствуете разницу? Детали — морщины на рубашке, недопитый эспрессо, седая щетина — именно они заставляют алгоритм «думать» в категориях реального мира.

Отдельно стоит упомянуть слово «candid». Это настоящий спасательный круг для тех, кто хочет добиться репортажного ощущения. Candid shot — это незапланированный снимок, и нейросеть интерпретирует его соответственно: чуть менее идеальная композиция, более естественные позы, иногда даже лёгкий смаз. Ведь именно такие «несовершенства» и отличают живое фото от рендера.

Камера и объектив: зачем нейросети знать про Sony Alpha?

Звучит странно. Зачем программе, которая никогда не держала камеру в руках, знать модель фотоаппарата? Но фокус в том, что Midjourney обучалась на фотографиях с метаданными, а в этих метаданных — информация об оборудовании. Поэтому упоминание конкретной камеры и объектива направляет генерацию в сторону характерного «почерка» этой техники. Пишешь «shot on Canon EOS R5, 85mm f/1.4» — получаешь мягкое кремовое размытие фона и характерную пластику портретного объектива. Указываешь «Fujifilm X-T4, 23mm f/2» — и цвета становятся чуть более приглушёнными, с лёгкой плёночной ностальгией.

Не стоит, впрочем, перебарщивать и писать полную спецификацию объектива вплоть до серийного номера. Достаточно бренда камеры и фокусного расстояния с диафрагмой. Тем более что слишком длинные промты Midjourney иногда обрабатывает непредсказуемо — львиная доля информации попросту теряется где-то «на полпути» к генерации.

Освещение — самый щепетильный нюанс

Любой фотограф скажет: свет делает снимок. И с нейросетью эта аксиома работает ничуть не хуже. Midjourney без указаний на тип освещения склонна выбирать «безопасный» вариант — ровный мягкий свет, который выглядит приятно, но совершенно неестественно. В реальной жизни свет так не ложится. Он создаёт жёсткие тени под подбородком в полдень, пробивается сквозь жалюзи полосами, отражается от мокрого асфальта оранжевым пятном фонаря. Именно такие конкретные указания и нужно вписывать в промт.

Один из самых популярных приёмов — «golden hour lighting», то тёплое предзакатное свечение, которое обожают и свадебные фотографы, и пейзажисты. Но если хочется чего-то менее избитого, стоит задуматься о «overcast flat lighting» (пасмурное ровное освещение) или «mixed artificial and natural light» (смешанный свет в помещении — тёплые лампы плюс холодный дневной из окна). К тому же, довольно мощный эффект даёт указание «dappled light» — это пятнистый свет, пробивающийся сквозь листву. Настоящий кладезь атмосферности для портретов на природе.

Стоит ли указывать ISO и выдержку?

Неоднозначный вопрос. Многие считают, что чем больше технических деталей — тем реалистичнее результат. Но на самом деле Midjourney реагирует на подобные параметры довольно избирательно. Указание «ISO 3200» теоретически должно добавить зернистость, характерную для съёмки при слабом освещении. И иногда это действительно срабатывает. Но гораздо надёжнее написать напрямую: «slight film grain, low light noise». Нейросеть лучше «понимает» визуальные описания, чем технические характеристики фотоаппарата.

А вот что точно творит чудеса — это упоминание конкретного типа плёнки. «Kodak Portra 400» выдаёт тёплые пастельные тона с мягкими тенями. «Fujifilm Superia» добавляет зеленоватый оттенок и чуть повышенный контраст. «Ilford HP5» — классическая чёрно-белая зернистость. Это связано с тем, что в обучающей выборке модели огромное количество снимков на эти плёнки, и нейросеть накрепко запомнила их характерный «почерк».

Что такое «негативный промт» и как с ним работать

Тут всё просто и сложно одновременно. Негативный промт — это перечисление того, чего на изображении быть не должно. В Midjourney он задаётся через параметр —no. Казалось бы, мелочь. Но именно этот инструмент помогает избавиться от «цифрового лоска», который выдаёт ИИ-генерацию с головой. Стандартный набор для реалистичного фото выглядит примерно так: —no illustration, painting, cartoon, 3d render, oversaturated, perfect skin, airbrushed. Каждое из этих слов — как забор, не позволяющий нейросети свернуть в сторону «красивости».

Впрочем, не стоит увлекаться и вписывать в негативный промт по двадцать слов. Midjourney довольно капризна к длинным конструкциям с —no, и при избытке ограничений результат может стать непредсказуемым. Четыре-шесть позиций — вполне достаточно. Да и сам принцип работы негативного промта неидеален: иногда модель, пытаясь «избежать» чего-то, наоборот, фокусируется на этом. Ложка дёгтя, но знать о ней стоит.

Параметры —ar, —s, —v и —style raw

Технические параметры Midjourney — это рычаги тонкой настройки. Соотношение сторон (—ar) задаёт формат кадра: для горизонтального пейзажа хорошо работает 3:2, для вертикального портрета — 2:3, для кинематографичного широкоэкранного кадра — 16:9 или даже 21:9. Этот нюанс часто недооценивают, а ведь квадратный формат по умолчанию сразу выдаёт «сгенерированность» — в реальной фотографии квадрат используют довольно редко (если только речь не о среднеформатной плёночной камере).

Следующий важный параметр — —style raw. Это, пожалуй, самый недооценённый инструмент во всём арсенале Midjourney. В режиме raw нейросеть отключает внутреннюю «приукрашивалку» и следует промту гораздо буквальнее. Краски становятся менее насыщенными, контрасты — мягче, а общая картинка — ближе к необработанному RAW-файлу из фотоаппарата. Кстати, именно поэтому параметр так и называется. Ну, а —s (stylize) стоит выставлять в диапазоне от 0 до 250 для реалистичных генераций. Чем ниже значение — тем точнее модель следует тексту промта и тем меньше «отсебятины» добавляет.

Как собрать всё воедино: пример готового промта

Теория без практики мертва. Поэтому разберём конкретный пример промта, нацеленного на максимальный фотореализм. Допустим, нужен портрет пожилого рыбака на причале ранним утром.

An elderly fisherman with deep wrinkles and sun-weathered skin, wearing a faded navy blue raincoat, standing on a wooden dock at dawn. He is looking down at a tangled fishing net in his hands. Misty morning light, soft overcast sky with hints of pink near the horizon. Shallow depth of field, slight film grain. Shot on Nikon D850, 105mm f/1.4. Candid documentary photography style. —ar 2:3 —style raw —s 100 —no illustration, cartoon, 3d, airbrushed, oversaturated —v 6.1

Разберём по частям. Первое предложение — скрупулезное описание персонажа: возраст, состояние кожи, одежда с конкретным цветом и степенью потёртости. Второе — действие и мелкая деталь (спутанная рыболовная сеть в руках). Третье — освещение и атмосфера. Четвёртое — технические фотографические характеристики. Пятое — стилевое указание. И в самом конце — параметры модели с негативным промтом. Обратите внимание: ни одного абстрактного слова. Всё конкретно вплоть до оттенка неба.

Типичные ошибки: на чём спотыкаются новички

Грешат многие. Первая и самая распространённая ошибка — использование слова «realistic» или «photorealistic» в качестве основной инструкции. Многие считают, что достаточно дописать это словечко в конец — и нейросеть всё сделает сама. Но на деле такие общие указания работают слабо. Midjourney «понимает» их слишком широко, и результат получается стерильно чистым, словно рекламная съёмка зубной пасты. А ведь реальная фотография — это несовершенство. Чуть пересвеченное небо, случайный прохожий на фоне, неидеальный фокус.

Вторая ошибка — перегруз промта. Когда в одну строку пытаются впихнуть описание сцены, трёх персонажей, времени года, погоды, пяти предметов на столе и ещё философский подтекст — нейросеть буквально «захлёбывается». Она начинает комбинировать элементы хаотично, и на выходе — каша. Не стоит гнаться за всеохватностью: лучше один добротный лаконичный промт, чем роман на полстраницы. Правило «одна идея — один промт» ещё никого не подводило.

Ну, а третья ошибка — игнорирование итераций. Даже идеально составленный промт с первого раза редко выдаёт именно то, что задумано. Профессионалы генерируют по четыре-восемь вариаций, потом используют функции vary (subtle) и vary (strong), чтобы «доводить» лучший результат до совершенства. Это кропотливый процесс, но результат того стоит.

Работа с людьми: руки, глаза и другие подводные камни

Руки. Извечная боль генеративных моделей. Даже шестая версия Midjourney время от времени «дарит» персонажам лишний палец или сращивает два пальца в один. Полностью избавиться от этой проблемы пока невозможно — архитектура модели на текущий момент не гарантирует анатомическую точность в ста процентах случаев. Но минимизировать риск вполне реально. Первый приём — прятать руки: персонаж может держать их в карманах, за спиной, в перчатках. Второй — кадрировать снимок так, чтобы руки оказались вне фокуса или за границей кадра (указание «close-up portrait, head and shoulders only» решает проблему радикально).

С глазами ситуация получше, но нюансы остаются. Иногда зрачки имеют разный размер, а иногда в отражении на радужке появляются артефакты, которые в природе невозможны. Тут помогает пост-обработка. Да и функция inpainting в сторонних сервисах вроде Photoshop позволяет исправить мелочи за пару минут. Тем более что доводка в редакторе — совершенно нормальная практика даже для обычных фотографов.

Секреты атмосферности: детали, которые решают всё

Мокрый асфальт. Именно эта крохотная деталь способна превратить посредственную генерацию в снимок, приковывающий внимание. Дело в том, что мокрые поверхности создают отражения, блики, неоднородность текстуры — всё то, что мозг воспринимает как признак «настоящести». Указание «wet streets after rain, puddle reflections» мгновенно добавляет кадру глубину и реалистичную световоздушную перспективу.

К тому же, стоит задуматься о так называемых «неидеальных» деталях: потёртая краска на двери, пыль на стекле, мятая скатерть, пожелтевшие страницы книги. Нейросеть, предоставленная сама себе, генерирует стерильно чистые объекты — ведь в обучающей выборке «красивых» изображений больше, чем «обжитых». А настоящая фотография — это всегда следы жизни. Поэтому одна-две «грязные» детали в промте творят чудеса с реализмом итогового изображения. Впрочем, и тут не стоит перебарщивать: пять строк описания грязи и потёртостей превратят фото в постапокалиптическую сцену.

Где искать вдохновение для промтов

Задача не из лёгких. Ведь хороший промт — это, по сути, мини-сценарий, и писать его нужно с режиссёрским мышлением. Особый интерес вызывают сообщества на Reddit (в первую очередь r/midjourney) и Discord-серверы, где пользователи выкладывают результаты генераций вместе с промтами. Это настоящий кладезь идей и готовых формулировок. Ещё один добротный источник — сайты вроде prompthero.com, где промты каталогизированы по стилям и темам.

Но, пожалуй, самый мощный метод — анализ настоящих фотографий. Находишь снимок, который хочется воспроизвести, и начинаешь «разбирать» его на составляющие: тип освещения, ракурс, фокусное расстояние, цветовая палитра, настроение, детали окружения. А потом переводишь всё это в текст. Поначалу процесс кажется довольно муторным, но со временем глаз «натренировывается», и описание рождается почти автоматически.

Версии Midjourney: что нового в шестой

Буквально полтора года назад, на пятой версии, фотореализм в Midjourney был скорее счастливой случайностью, чем закономерностью. С выходом v6 ситуация изменилась кардинально. Модель научилась корректнее работать с текстурами кожи, тканей и природных материалов. Лучше стала и детализация мелких объектов — надписи на вывесках, рисунок на ткани, структура древесины. И всё-таки главное улучшение — понимание пространственных отношений. Если раньше нейросеть могла поставить человека «внутри» стола или «сквозь» стену, то теперь подобные ляпы случаются гораздо реже.

Нужно отметить, что обновления продолжают выходить с завидной регулярностью. Версия 6.1 подтянула работу с руками и мелкими деталями, а режим —style raw стал ещё точнее следовать пользовательским инструкциям. К тому же, появилась возможность генерации в более высоком разрешении без потери качества через функцию upscale (subtle) и upscale (creative). А это значит, что результат можно смело отправлять в печать — хоть на холст, хоть на обложку журнала.

Этика и правовые нюансы реалистичных генераций

Обе стороны медали. Чем реалистичнее генерации — тем острее встаёт вопрос ответственности. Сгенерированное «фото» реального политика в компрометирующей ситуации, фейковый репортажный снимок с места событий, поддельный портрет для мошеннического профиля — всё это уже не фантастика, а повседневная реальность. Midjourney, к слову, активно борется с подобными злоупотреблениями: модель отказывается генерировать узнаваемых публичных персон и контент откровенного характера. Но обходные пути, к сожалению, находятся довольно быстро.

Для тех, кто использует генерации в коммерческих целях — в рекламе, на сайтах, в социальных сетях — стоит задуматься о прозрачности. Всё больше платформ требуют маркировки ИИ-контента, а в Евросоюзе уже действуют нормы AI Act, обязывающие указывать искусственное происхождение изображения. Да и с точки зрения репутации честность куда выгоднее: аудитория, обнаружившая обман, редко прощает подобные махинации.

Освоение промт-инжиниринга для Midjourney — не столько техническая задача, сколько творческая. Это навык видеть реальность в деталях и переводить визуальные ощущения в слова, понятные алгоритму. С каждой генерацией глаз настраивается точнее, формулировки становятся лаконичнее, а результат — всё ближе к тому самому «идеальному кадру». Ну и не стоит забывать: даже лучший промт — это только начало. Настоящая магия рождается в итерациях, экспериментах и готовности переписать всё с нуля ради одного безупречного изображения. Удачи в этом увлекательном и бесконечном процессе.