Ещё три года назад сгенерированного человека на картинке выдавали шесть пальцев на руке, расплывшиеся зубы и странно закрученные мочки ушей — зрелище, прямо скажем, удручающее. Нейросети тогда справлялись с пейзажами и абстракциями, но стоило попросить портрет реального вида, как результат скатывался в «зловещую долину». Сегодня же ситуация перевернулась с ног на голову: Midjourney пятой и шестой версии выдаёт фотографии, от которых даже опытный ретушёр не сразу отличит подделку. Люди в кадре выглядят живыми — с порами на коже, с лёгкой асимметрией лица, с естественным блеском в глазах. Но чтобы добиться такого эффекта, одной кнопки мало — нужно разобраться в нюансах промтинга, понять логику модели и научиться «думать» вместе с ней.
Почему Midjourney так хорошо справляется с лицами?
Дело в том, что последние версии модели тренировались на колоссальных массивах фотографий, где львиная доля приходилась именно на портреты и жанровые снимки. Нейросеть буквально «насмотрелась» на миллионы человеческих лиц, снятых в разном освещении, с различных ракурсов, на разную оптику. Отсюда и результат — генерация, тяготеющая к фотореализму по умолчанию. Впрочем, «по умолчанию» и «идеально» — вещи совершенно разные. Без грамотного промта нейросеть всё ещё может выдать что-нибудь странное: третью руку, размытые пальцы или взгляд, направленный одновременно в две стороны. А вот с правильной подачей запроса картинка начинает приковывать внимание своей достоверностью.
Промт — это не просто набор слов
Распространённое заблуждение новичка. Многие считают, что достаточно написать «красивая девушка, реалистичное фото» — и Midjourney всё сделает сама. На самом деле нейросеть реагирует на каждое слово в запросе, на его позицию в строке и даже на то, какие параметры идут в конце через двойное тире. Стоит задуматься об этом как о режиссёрской работе: промт — это сценарий, а модель — актёр, который играет ровно то, что написано. Ни больше, ни меньше.
С чего начинается хороший запрос? С определения типа фотографии. Нужен портрет крупным планом — стоит указать «close-up portrait» или «headshot». Если требуется снимок в полный рост — «full body shot» или «full-length photo». Далее следует описание самого человека, причём не абстрактное, а конкретное: возраст (примерно 35 лет), этническая принадлежность, тип телосложения, выражение лица. Ну и, наконец, контекст — где человек находится, что за ним, какой свет падает на лицо. Каждая деталь отсекает лишнее и приближает результат к задуманному кадру.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Освещение и оптика: изюминка реализма
Именно свет делает фотографию живой. Это правило работает и в реальной съёмке, и в генерации. Midjourney прекрасно понимает фотографическую терминологию, и этим грех не воспользоваться. Промт, в котором упоминается «golden hour lighting» или «soft diffused window light», даёт совершенно иной результат, чем просто «good lighting». К слову, добавление конкретной модели объектива — например, «shot on Canon 85mm f/1.4» — творит чудеса. Нейросеть начинает имитировать характерное боке, глубину резкости и даже лёгкую хроматическую аберрацию, свойственную именно этому стеклу. Результат — снимок, который выглядит так, будто его сделал живой фотограф с дорогой полнокадровой камерой в руках.
Отдельно стоит упомянуть работу с тенями. Плоский фронтальный свет убивает объём и сразу выдаёт «компьютерность» картинки. А вот боковое освещение с мягким заполнением создаёт ту самую скульптурную глубину, которую мозг подсознательно считывает как реалистичную. Не стоит забывать и о цветовой температуре: «warm tones» для уюта, «cool blue tones» для делового или тревожного настроения. Кстати, совмещение двух источников разной температуры (тёплый контровой и холодный рисующий) — приём, который вытягивает портрет на совершенно другой уровень.
Как избежать «пластиковых» лиц?
Знакомая ситуация. Сгенерировал портрет, вроде всё красиво, но кожа — как после агрессивной обработки в Facetune. Ни единой поры, ни морщинки, ни родинки. Такое лицо мгновенно бросается в глаза и вызывает ощущение подделки. Дело в том, что Midjourney по умолчанию тяготеет к «идеализации», особенно при генерации женских портретов. И бороться с этим можно. Во-первых, в промте стоит прямо указывать «imperfect skin texture» или «natural skin with pores and fine lines». Во-вторых, добавление слова «candid» вместо «portrait» часто меняет подход модели: вместо постановочного гламурного кадра выходит нечто более спонтанное и живое.
Ещё один довольно эффективный приём — указание конкретного фотографа или журнала в качестве стилевого ориентира. Промт вида «editorial photograph in the style of Annie Leibovitz for Vanity Fair» направляет нейросеть в русло определённой эстетики, где несовершенства кожи — часть художественного замысла. Но тут есть подводные камни: не каждое имя модель «знает» одинаково хорошо, да и результат бывает неоднозначным. Нужно экспериментировать. Тем более что каждая генерация — это вопрос секунд, а не часов.
Руки, пальцы и глаза: три вечные проблемы
Руки. Вот что до сих пор остаётся ложкой дёгтя в генерации людей. Хотя Midjourney v6 сделала грандиозный шаг вперёд, аномалии всё ещё всплывают — шесть пальцев, сросшиеся фаланги, странно вывернутые кисти. И чем больше рук в кадре, тем выше шанс получить артефакт. Поэтому опытные пользователи предпочитают либо кадрировать руки за рамкой (через «shot from waist up» или «hands not visible»), либо задавать конкретное положение рук: «hands folded on table», «hand resting on chin». Когда нейросеть понимает, что именно делают руки, ошибок становится ощутимо меньше.
С глазами история другая. Проблема здесь не в анатомии, а в «пустоте» взгляда. Сгенерированный человек может смотреть прямо в камеру, но зритель чувствует — что-то не так. Никакой эмоции, никакой мысли за этими зрачками. Спасательный круг — детализация эмоционального состояния в промте. Не просто «smiling woman», а «woman with a tired but genuine smile, laugh lines around eyes, slightly squinting». Чем щепетильнее описание микроэмоций, тем живее получается взгляд. К тому же стоит следить за отражениями в радужке — иногда Midjourney рисует в зрачках странные геометрические фигуры, которые мгновенно выдают подделку.
Параметры генерации: что скрывается за двойным тире
Технические настройки. Многие о них забывают, а ведь именно они тонко управляют результатом. Один из самых полезных параметров — —style raw. В обычном режиме Midjourney добавляет собственную «приукрашивающую» обработку: повышенную контрастность, насыщенные цвета, лёгкое свечение. Режим raw отключает эту косметику и выдаёт более «сырой», документальный кадр. Для реалистичных портретов людей это часто именно то, что нужно.
Следующий важный критерий — параметр —ar (соотношение сторон). Квадратный кадр 1:1 хорош для аватарок и иконок, но для полноценного портрета стоит использовать 3:4 или даже 2:3 — пропорции, привычные глазу по реальным фотографиям. Параметр —s (stylize) управляет степенью «художественности»: значение около 50–100 даёт довольно нейтральный, фотографичный результат, а вот 750 и выше уже уводит в сторону арта. Ну, а параметр —q (quality) влияет на детализацию, хотя разница между значениями 1 и 2 не всегда критична на глаз. Само собой, все эти настройки — не догма, а инструменты, с которыми нужно играть под конкретную задачу.
Стоит ли дорабатывать результат?
Безусловно. И тут нет смысла стесняться. Даже самый добротный снимок из Midjourney — это всё-таки отправная точка, а не финальный продукт. Опытные практики почти всегда доводят генерацию до ума в Photoshop или Lightroom: корректируют цветовой баланс, добавляют зерно плёнки, убирают мелкие артефакты. Лёгкое зерно (grain) — вообще настоящая находка. Оно мгновенно придаёт картинке «плёночное» ощущение и скрывает ту микро-гладкость, которая выдаёт синтетическое происхождение. Да и сам процесс занимает от силы пять-десять минут — не сильно ударит по бюджету времени.
Кроме того, стоит обратить внимание на инструмент inpainting, который встроен прямо в Midjourney через функцию «Vary (Region)». Работает он так: выделяешь проблемную область (те же шестипалые руки), вписываешь уточняющий промт — и нейросеть перерисовывает только этот фрагмент, не трогая остальное. Довольно мощный инструмент, хотя и не всегда срабатывающий с первого раза. Иногда приходится перегенерировать участок три-четыре раза. Но результат того стоит.
Этика и подводные камни реалистичной генерации
Нельзя не упомянуть обратную сторону медали. Чем реалистичнее становятся сгенерированные лица, тем острее встают вопросы этического характера. Создание фейковых фотографий реальных людей (так называемые дипфейки) — прямой путь к судебным искам и репутационным скандалам. Midjourney, кстати, уже давно запретила генерацию изображений публичных фигур и ввела фильтры на откровенный контент. Однако обойти эти ограничения пытаются многие — и последствия таких махинаций бывают серьёзными.
Для коммерческого использования стоит придерживаться простого правила: генерировать только вымышленных людей и никогда не выдавать ИИ-изображение за реальную фотографию в контексте, где это может ввести в заблуждение. В рекламе, стоковых библиотеках, на обложках книг — всё это вполне легитимные сценарии. А вот подставлять сгенерированное лицо в новостной репортаж или в профиль социальной сети от имени несуществующего человека — уже территория, куда лучше не заходить. Тем более что технологии распознавания синтетических изображений тоже не стоят на месте.
Что делать, если результат «не тот»?
Знакомое чувство разочарования. Написал длинный скрупулёзный промт, ждёшь шедевр — а получаешь нечто мимо. Не стоит паниковать. Вся суть в том, что генерация — процесс итеративный. Буквально десятилетие назад дизайнеры тратили часы на ручную ретушь одного кадра, а сейчас за те же часы можно перебрать сотню вариантов и выбрать лучший. Первый шаг — посмотреть на четыре превью и выбрать ближайшее к задумке, затем сделать «upscale» и внимательно изучить детали. Если направление верное, но нужна корректировка — использовать «Vary (Subtle)» для мягкой вариации или «Vary (Strong)» для более радикальных изменений.
Есть и ещё один неочевидный приём — «промт от обратного». Через параметр —no можно исключить нежелательные элементы: «—no makeup, —no studio background, —no perfect skin». Такой подход часто даёт более естественный, «репортажный» вид, от которого веет настоящей жизнью. И, разумеется, не стоит пренебрегать функцией /describe — она анализирует загруженное фото и выдаёт промт, который (теоретически) воспроизведёт похожий стиль. Это настоящий кладезь идей для тех, кто хочет понять, «как думает» нейросеть.
Midjourney и конкуренты: кто лучше рисует людей?
На рынке генеративных моделей конкуренция сейчас нешуточная. DALL-E 3 от OpenAI, Stable Diffusion XL, Flux, Leonardo AI — каждый инструмент тяготеет к своей нише. Но если говорить именно о реалистичных портретах людей, Midjourney пока что солирует. Это связано с тем, что разработчики изначально делали ставку на эстетику: модель заточена под создание «красивых» изображений, а не технически точных. И в случае с людьми это ведь именно то, что нужно — ощущение живого присутствия в кадре, а не медицинская точность анатомического атласа.
Впрочем, Stable Diffusion дышит в затылок. Особенно при использовании тонко настроенных моделей (так называемых checkpoints) и расширений вроде ControlNet, управляющих позой через скелетную схему. С одной стороны, это сложнее и требует технических знаний. С другой — даёт значительно больше контроля над результатом. Для обывателя, который хочет быстрый эффектный результат без погружения в дебри настроек, Midjourney остаётся оптимальным выбором. А вот для профессионала, готового вложить время в обучение, Stable Diffusion открывает практически безграничные возможности кастомизации.
Практический чек-лист: от идеи до готового кадра
Начать нужно с формулирования концепции. Кто этот человек? Сколько ему лет? Какое настроение у снимка? Где он находится? Ответы на эти вопросы складываются в первую часть промта — описательную. Затем к ней добавляется «техническая обёртка»: тип камеры, объектив, освещение, стиль обработки. И уже в самом конце — параметры Midjourney: соотношение сторон, уровень стилизации, режим raw. Такая последовательность — от общего к частному — работает значительно лучше, чем хаотичный набор слов через запятую.
Вот как это выглядит на практике. Допустим, нужен портрет мужчины средних лет для обложки бизнес-журнала. Промт строится примерно так: «Editorial photograph of a 45-year-old man with salt-and-pepper hair, wearing a navy wool coat, standing on a rainy city street, confident expression, natural skin texture with visible pores, shot on Sony 85mm f/1.8, soft overcast lighting, shallow depth of field, muted tones —ar 2:3 —style raw —s 80». Каждый фрагмент этого запроса работает на общую задачу, и ни одного слова здесь нет «просто так». После генерации остаётся выбрать лучший вариант из четырёх, при необходимости доработать через inpainting и добавить финальную цветокоррекцию в графическом редакторе.
Чего ждать в ближайшем будущем?
Темпы развития внушают. Midjourney уже анонсировала работу над видеогенерацией, а значит, статичные реалистичные портреты — это лишь промежуточная станция. Скоро сгенерированные люди начнут двигаться, говорить, жестикулировать. И тогда граница между фотографией и генерацией окончательно размоется. Некоторых это пугает, других — вдохновляет. Но факт остаётся фактом: умение работать с нейросетевой генерацией постепенно становится таким же базовым навыком, как владение Photoshop десять лет назад.
Освоить Midjourney для создания реалистичных портретов — задача не из лёгких, но и не запредельно сложная. Главное — понимать, что за каждым впечатляющим кадром стоит не магия, а скрупулёзная работа с промтом, осознанный выбор параметров и готовность перебрать десятки вариантов ради одного идеального. А ведь именно так всегда работали и настоящие фотографы — плёнку не жалели, затвором щёлкали сотни раз, а в печать шёл один-единственный кадр. Нейросеть, по сути, ничего тут не изменила. Просто «плёнка» стала цифровой, а «затвор» — строкой текста. Удачи в экспериментах — и пусть каждый новый портрет получается чуточку реалистичнее предыдущего.

