Как создать реалистичного человека в Midjourney: секреты составления правильных запросов

Ещё пару лет назад сгенерировать фотореалистичное лицо с помощью нейросети казалось чем-то из области фантастики — результаты напоминали скорее восковые фигуры из музея мадам Тюссо, чем живых людей. Шесть пальцев на руке, расплывшиеся зрачки, зубы, сливающиеся в одну белую полосу — всё это вызывало у пользователей разве что нервный смех. Но Midjourney версий 5 и 6 совершила довольно резкий скачок вперёд, и теперь даже опытный фотограф не всегда отличит сгенерированный портрет от настоящего снимка. Вся суть в том, что само по себе качество движка — лишь половина успеха, а вторая половина целиком зависит от того, насколько грамотно составлен промт. А начать стоит с понимания логики, по которой нейросеть «читает» ваш текстовый запрос.

Все топовые нейросети в одном месте

Почему Midjourney «не слышит» ваш промт?

Распространённое заблуждение обывателя — чем длиннее и подробнее запрос, тем точнее результат. На самом деле всё работает иначе. Midjourney обрабатывает промт не как человек, а как статистическая модель, которая взвешивает каждое слово относительно всех остальных. И если в одну строку втиснуть двадцать характеристик через запятую, львиная доля из них попросту «потеряется» в шуме. Движок тяготеет к первым словам — именно они получают наибольший вес. К тому же, порядок слов внутри промта меняет итоговую картинку ощутимее, чем добавление новых деталей в конец строки. Нужно отметить, что модель пятой версии стала куда чувствительнее к естественному языку, однако и подводные камни от этого никуда не делись.

Фундамент промта: структура запроса

Скелет запроса. Именно с него начинается путь к реалистичному портрету. Первым в строке всегда идёт описание субъекта — кто именно должен появиться на изображении. Следом за субъектом стоит расположить внешние характеристики: возраст, тип телосложения, этническую принадлежность. Далее следует описание действия или позы, затем — окружение и фон, ну и, наконец, технические параметры: тип камеры, освещение, соотношение сторон. Такой порядок — не прихоть перфекциониста, а результат тысяч экспериментов, которые сообщество Midjourney провело за последние полтора года. Ведь именно он позволяет движку правильно расставить приоритеты.

Довольно часто новички совершают одну и ту же ошибку: начинают промт со стиля фотографии или настроек камеры, а субъект прописывают где-то в середине. Результат — красивый размытый фон с безликим силуэтом вместо живого человека. Не стоит забывать, что нейросеть «думает» не категориями, а весами токенов, и первое слово для неё — самое важное.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Как описать лицо и не получить «пластик»?

Вот тут начинается настоящее мастерство. Само слово «realistic» в промте — это, конечно, база, но одного его недостаточно. Дело в том, что модель под «реализмом» может подразумевать что угодно — от гиперреалистичной живописи до стоковой фотографии с идеально гладкой кожей. А ведь именно кожа выдаёт искусственное изображение чаще всего. Стоит добавить в промт такие маркеры, как «skin texture», «pores», «subtle imperfections» — и лицо моментально приобретает глубину. К слову, морщинки, едва заметные шрамы, неровный тон кожи — всё это не портит портрет, а делает его убедительным. Реальные люди не выглядят как обложки журналов после двухчасовой ретуши.

Глаза — отдельная история. Буквально год назад Midjourney регулярно «ломала» зрачки, рисуя их разного размера или с размытой радужкой. Сейчас ситуация значительно лучше, однако для полного контроля стоит указывать цвет глаз явно: «deep brown eyes with visible iris detail» или «grey-green eyes with natural light reflection». Впрочем, чрезмерная детализация тоже способна навредить — если прописать одновременно цвет, форму, блик и направление взгляда, модель может «запутаться» и выдать неестественный результат. Здесь, как и в фотографии, важен баланс.

Освещение — тайное оружие реализма

Свет решает всё. Это не преувеличение, а постулат, на котором стоит вся портретная фотография, и в мире нейросетей он работает ровно так же. Без указания типа освещения Midjourney использует нейтральный заливающий свет — ровный, скучный, лишённый характера. А стоит добавить в промт «golden hour lighting» или «soft window light from the left», как картинка преображается до неузнаваемости. Тени становятся мягкими, объём лица проявляется, а общий антураж снимка тяготеет к документальной фотографии.

Один из самых популярных приёмов среди опытных пользователей — указание конкретного направления источника света. Например, «Rembrandt lighting» создаёт характерный треугольник света на щеке, а «backlighting with lens flare» добавляет контровой ореол вокруг волос. Кстати, именно контровой свет творит чудеса с реалистичностью волос — отдельные пряди начинают «светиться», как на настоящей фотографии. Но есть и ложка дёгтя: слишком специфичные световые схемы иногда конфликтуют с другими параметрами промта, особенно если одновременно задан сложный фон.

Стоит ли указывать марку камеры?

Да, и ещё как. Этот приём кажется странным — зачем нейросети знать про Canon или Sony? Но на практике указание конкретной камеры и объектива кардинально меняет «текстуру» изображения. Вся суть в том, что Midjourney обучалась на миллионах фотографий, и в метаданных огромной части из них содержалась информация об оборудовании. Модель «выучила» характерные особенности разных камер: зернистость плёночных Leica, мягкое боке от портретных объективов Canon 85mm f/1.2, холодноватые тона Fujifilm. И когда вы пишете «shot on Canon EOS R5, 85mm f/1.4», нейросеть как бы «вспоминает» тысячи снимков, сделанных на это оборудование, и воспроизводит их эстетику.

Отдельно стоит упомянуть плёночные камеры. Промт с указанием «Kodak Portra 400 film» или «shot on Hasselblad 500C» выдаёт результаты с характерной плёночной зернистостью, тёплыми тонами и чуть приглушённым контрастом. Для портретов зрелых людей — мужчин и женщин старше сорока — этот приём особенно хорош, ведь плёночная эстетика скрадывает чрезмерную «цифровую» резкость и добавляет тот самый «ламповый» шарм.

Руки, пальцы и другие проблемные зоны

Легендарная проблема. Ещё в четвёртой версии Midjourney генерация рук напоминала сюрреалистический кошмар — шесть пальцев, сросшиеся фаланги, ногти на тыльной стороне ладони. Сейчас ситуация заметно лучше, но полностью доверять модели всё-таки не стоит. Один из проверенных способов минимизировать ошибки — не помещать руки в центр внимания. Если для сюжета критически важно показать кисти рук, стоит задать чёткую позу: «hands resting on the table», «one hand gently touching chin». А вот сложные жесты — скрещённые пальцы, хват мелких предметов — пока остаются слабым местом.

Зубы — ещё одна зона риска. Широкая улыбка в Midjourney иногда оборачивается рядом из тридцати двух идеально одинаковых зубов, что выглядит, мягко говоря, жутковато. Безопаснее задавать «slight smile» или «closed-mouth portrait». Тем более, что в профессиональной портретной фотографии закрытый рот считается более «серьёзным» и универсальным вариантом. Ну, а если улыбка всё же нужна, спасательным кругом может стать параметр —style raw, который снижает «приукрашивание» со стороны модели.

Магия негативных промтов и параметра —no

Не все знают, но в Midjourney есть возможность указать, чего вы не хотите видеть на изображении. Параметр —no — это, по сути, негативный промт, который вычитает определённые концепции из генерации. Хотите избавиться от пластиковой кожи? —no plastic skin, airbrushed, smooth skin. Надоели стоковые улыбки? —no stock photo, cheesy smile. Этот инструмент довольно мощный, но пользоваться им нужно с умом — если «забанить» слишком много элементов одновременно, модель начинает вести себя непредсказуемо.

На самом деле грамотный негативный промт порой вносит в итоговое изображение больше реализма, чем пять дополнительных описательных фраз. Это связано с тем, что убрать нежелательный артефакт — задача более конкретная для модели, чем «добавить реализм». Ведь «реализм» — понятие абстрактное, а «убрать размытие кожи» — чёткая инструкция.

Параметры —stylize и —chaos: тонкая настройка

Два этих параметра — обе стороны одной медали. Значение —stylize (или —s) контролирует, насколько «художественно» модель интерпретирует ваш промт. Низкие значения (от 0 до 100) заставляют Midjourney следовать тексту буквально, а высокие (до 1000) — дают ей больше творческой свободы. Для фотореалистичных портретов оптимальный диапазон лежит где-то между 50 и 250. При значении 750 и выше лица начинают «уплывать» в арт-стилистику — красиво, но далеко от реализма.

С параметром —chaos (или —c) дело обстоит иначе. Он управляет разнообразием между четырьмя генерациями в одном сете. При нулевом значении все четыре варианта окажутся почти одинаковыми. При значении 100 — кардинально разными. Для поиска нужного ракурса или настроения стоит задать —c 20-30, а когда идеальная «формула» промта уже найдена — снизить до нуля, чтобы получить стабильный предсказуемый результат. Впрочем, многие опытные пользователи предпочитают держать chaos в районе 10-15 на постоянной основе, потому что лёгкий элемент случайности иногда подбрасывает неожиданно удачные композиции.

Этничность, возраст и эмоции: щепетильные нюансы

Midjourney довольно хорошо понимает этнические характеристики, но здесь важна деликатность формулировок. Вместо общих слов лучше использовать конкретные описания: «East Asian woman in her 30s», «Middle Eastern man with a short beard», «Scandinavian features, light freckles». Чем точнее описание, тем меньше шансов получить усреднённое «голливудское» лицо, на которое модель тяготеет по умолчанию.

С возрастом — отдельная изюминка. Многие пишут просто «old man» и получают шаблонного благообразного старика. А ведь между «65 лет» и «80 лет» — пропасть. Стоит указывать конкретный возрастной диапазон: «woman in her late 50s», «elderly man, approximately 75 years old». К тому же, возрастные детали — морщины на лбу, чуть поредевшие волосы, пигментные пятна на руках — добавляют портрету ту самую неповторимую аутентичность, за которую документальные фотографы получают награды. Не стоит гнаться за «красивостью» — именно несовершенства делают лицо живым.

Эмоции тоже требуют скрупулезного подхода. Слово «happy» в промте выдаст дежурную улыбку, а вот «laughing with eyes squinting, genuine emotion» создаст совсем другое впечатление. Нужно отметить, что Midjourney неплохо справляется с грустью и задумчивостью — «pensive gaze», «melancholic expression» — но сложные составные эмоции (ирония, сарказм, недоумение) пока даются ей с трудом.

Одежда и окружение: контекст решает

Голый промт без контекста — путь к стоковой фотографии. Человек на белом фоне выглядит как модель из каталога, а не как живой персонаж. Стоит задуматься: где находится этот человек? Чем он занят? Что на нём надето? Конкретный добротный фон — кофейня с деревянными столами, залитая солнцем терраса, шумная городская улица — моментально добавляет снимку историю. И чем детальнее описано окружение, тем убедительнее персонаж «вписывается» в кадр.

С одеждой — похожая механика. Вместо общего «casual outfit» куда эффективнее написать «worn-out denim jacket, white cotton t-shirt, silver chain necklace». Текстуры тканей — грубый лён, мягкий кашемир, потёртая кожа — нейросеть передаёт великолепно, если дать ей чёткий ориентир. А вот с логотипами брендов и надписями на одежде пока всё печально: буквы Midjourney по-прежнему коверкает, превращая их в абракадабру. Так что надписей лучше избегать.

Работа с seed и мультигенерация

Параметр —seed — кладезь возможностей для тех, кто работает над серией портретов одного и того же «персонажа». Каждое изображение в Midjourney генерируется на основе случайного числа (seed), и если зафиксировать это число, а затем менять только отдельные элементы промта, результаты будут максимально близки друг к другу. Это особенно полезно, когда нужно показать одного человека в разной одежде, при разном освещении или в разных локациях.

Как узнать seed уже сгенерированного изображения? Достаточно добавить реакцию-конверт (✉️) к сообщению бота, и тот пришлёт числовое значение в личные сообщения. Далее это число подставляется в следующий промт через —seed 123456789. Безусловно, стопроцентного совпадения лица ждать не стоит — модель не умеет «запоминать» персонажей так, как это делают люди. Но сходство в 70-80% вполне достижимо, а для коммерческих проектов этого бывает достаточно.

Чем версия 6 отличается от предыдущих?

Разница колоссальная. Версия 6 (и её подверсии 6.0, 6.1) стала понимать естественный язык куда лучше предшественниц. Раньше приходилось писать промты в «телеграфном» стиле — набор существительных и прилагательных через запятую. Сейчас же модель воспринимает полноценные описательные предложения на английском языке, выстраивая из них сцену. Буквально два года назад промт «a tired doctor sitting in a dimly lit break room after a long shift» выдал бы хаос, а сегодня — точную визуализацию с характерной усталостью во взгляде и мятым халатом.

Ещё один ощутимый прорыв — работа с глубиной резкости. В шестой версии «shallow depth of field» создаёт по-настоящему кинематографичное размытие фона, а не просто «мыло» вокруг объекта. Да и мелкие детали — поры кожи, отдельные волоски бровей, текстура ткани — прорабатываются на совершенно ином уровне. Однако не всё идеально: модель иногда «перестарывается» с детализацией, создавая эффект HDR-фотографии, где каждая пора выглядит как кратер. Спасает уже упомянутый —style raw.

Типичные ошибки новичков

Первая и самая распространённая — жадность. Попытка уместить в один промт всё и сразу: внешность, одежду, позу, три источника света, конкретный фон, настройки камеры и ещё десяток деталей. Результат — каша. Модель не знает, на чём сосредоточиться, и выдаёт нечто усреднённое. Куда продуктивнее работать итеративно: начать с простого промта, получить базовый результат, а затем дорабатывать его через /describe, vary (subtle) и vary (strong).

Вторая ошибка — игнорирование соотношения сторон. По умолчанию Midjourney генерирует квадратное изображение (1:1), но для портретов куда естественнее вертикальный формат —ar 2:3 или —ar 3:4. Именно вертикальная ориентация «заставляет» модель выстраивать композицию как настоящий фотограф — с воздухом над головой, правильным кадрированием и фокусом на лице. Ну, а для поясных и ростовых портретов стоит попробовать —ar 4:5, который Instagram-фотографы знают и любят.

Все топовые нейросети в одном месте

Третья — слепое копирование чужих промтов из галерей и форумов. Да, это неплохая отправная точка, но без понимания почему работает каждое слово, результат будет непредсказуемым. Тем более, что промты, созданные под версию 5.2, в шестой версии ведут себя совершенно иначе.

Пример промта от начала до конца

«A candid street portrait of a 40-year-old Italian man with salt-and-pepper stubble, weathered skin texture with visible pores, wearing a navy linen shirt with rolled-up sleeves, leaning against a sunlit stone wall in Rome, golden hour, shot on Leica M10, 50mm Summilux f/1.4, shallow depth of field, natural film grain —ar 2:3 —s 100 —style raw —no airbrushed, plastic skin, smooth, stock photo»

Разберём этот промт по частям. Субъект идёт первым — «candid street portrait of a 40-year-old Italian man». Слово «candid» подсказывает модели, что снимок должен выглядеть непостановочным. Далее — детали внешности: щетина с проседью, текстурированная кожа с видимыми порами. Затем одежда, поза и локация — всё конкретно, без абстракций. Технические параметры стоят в конце, где им и положено быть. А негативный промт —no страхует от типичных артефактов «пластиковой» генерации. Стоит отметить, что каждое слово здесь работает на одну цель — создание ощущения, будто это кадр, снятый уличным фотографом где-нибудь в районе Трастевере.

Естественно, с первого раза идеальный результат может и не получиться. В этом нет ничего страшного — даже профессионалы прогоняют по десять-пятнадцать итераций, прежде чем выбрать финальный вариант. Инструмент vary (subtle) позволяет чуть-чуть «докрутить» удачную генерацию, сохранив общую композицию, но изменив мелкие детали: наклон головы, направление взгляда, складки на рубашке.

Midjourney — это не волшебная палочка, а скорее добротный профессиональный инструмент, который требует терпения и насмотренности. Чем больше настоящих фотографий вы изучите, чем глубже разберётесь в принципах портретного освещения и композиции, тем точнее и выразительнее станут ваши промты. Удачи в экспериментах — первый по-настоящему «живой» портрет, созданный вашими словами, запомнится надолго.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *