Как создать идеальный Midjourney портрет по фотографии

Ещё пару лет назад превратить обычный снимок с телефона в стилизованный живописный портрет мог разве что художник-фрилансер, берущий за работу от пяти до пятидесяти тысяч рублей. Сроки — от недели до месяца, результат — лотерея, ведь не каждый иллюстратор с первого раза улавливает нужное настроение лица. А потом появился Midjourney, и всё перевернулось. Нейросеть, обученная на миллиардах изображений, научилась генерировать портреты такого качества, что от реальной фотографии их отличает разве что едва заметная «пластиковость» кожи. Но чтобы результат действительно приковывал внимание, а не вызывал разочарование, стоит разобраться в нюансах процесса — от подготовки исходника до тонкой настройки промта.

Почему именно Midjourney?

Нейросетей для генерации изображений сейчас хватает — тут и Stable Diffusion, и DALL·E, и Leonardo AI, и добрый десяток менее известных инструментов. Однако для портретной работы по фото Midjourney всё-таки солирует. Дело в том, что её алгоритм изначально тяготеет к «художественному» стилю: мягкие переходы света, благородная цветовая палитра, деликатная детализация пор и морщин. Конкуренты часто грешат либо чрезмерным реализмом (получается «фото после фотошопа»), либо мультяшностью. Midjourney же попадает в ту самую золотую середину, которую ценят и обыватели, и профессиональные дизайнеры. К тому же интерфейс через Discord, хоть поначалу и кажется странным, довольно быстро становится привычным рабочим инструментом.

Подготовка исходной фотографии

Здесь всплывают первые подводные камни. Многие думают, что нейросети всё равно, какой снимок ей скормить — мол, искусственный интеллект разберётся. На самом деле качество исходника определяет процентов семьдесят финального результата. Львиная доля неудачных генераций связана именно с плохим фото, а не с кривым промтом.

Начать стоит с разрешения. Снимок меньше 1000 пикселей по длинной стороне нейросеть обработает, но деталей лица там окажется мало, и алгоритм начнёт «додумывать» черты самостоятельно. Итог — портрет похож на кого угодно, только не на оригинал. Идеальный вариант — кадр от 2000 пикселей и выше, снятый при естественном дневном освещении. Жёсткие тени от вспышки или ламп дневного света тоже вносят искажения: нейросеть воспринимает резкую тень под носом как отдельный элемент и может превратить её в странное пятно или даже в деталь одежды. А вот мягкий рассеянный свет от окна — настоящий спасательный круг для тех, кто хочет максимально точной передачи черт.

Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈

Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.

Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL

Ракурс тоже имеет значение. Фронтальный портрет (анфас) обрабатывается точнее всего, лёгкий поворот головы на 15–20 градусов тоже допустим. Но если исходник — селфи снизу вверх с искажённым перспективой подбородком, ждать чуда не стоит. Ведь нейросеть опирается на геометрию лица, и любая оптическая деформация её сбивает.

Как загрузить фото и привязать его к промту?

Механика простая, но свои тонкости есть. Фотографию нужно загрузить прямо в чат Discord (или в веб-интерфейс, если речь о Midjourney Alpha), после чего скопировать прямую ссылку на изображение. Эта ссылка вставляется в самое начало промта, перед текстовым описанием. Выглядит это примерно так: ссылка_на_фото portrait of a woman in Renaissance style, soft lighting, oil painting texture. Между ссылкой и текстом — пробел, без запятых и прочих разделителей.

Нужно ли загружать несколько ракурсов одного человека? Вовсе нет. Midjourney работает с одним референсом за раз, и попытка вставить две-три ссылки приведёт к тому, что нейросеть смешает лица в нечто среднее. Результат — неоднозначный, мягко говоря. Впрочем, если хочется добавить второй референс для стиля (например, картину конкретного художника), то такой приём сработает: первая ссылка — лицо, вторая — стилевой образец.

Промт — сердце генерации

Вся суть в том, что Midjourney не читает промт как человек. Она выделяет из текста «токены» — смысловые единицы — и присваивает каждому определённый вес. Поэтому порядок слов в промте имеет значение: то, что стоит ближе к началу, влияет на результат сильнее. И это первое правило, которое стоит запомнить.

Скелет портретного промта. Сначала идёт ссылка на фото. Затем — тип изображения (portrait, headshot, bust shot). После этого — описание стиля, которое и задаёт всю атмосферу. Ну и, наконец, технические параметры вроде освещения, текстуры и камеры. Следующий важный критерий — конкретность формулировок. Вместо расплывчатого «красивый портрет» нейросеть гораздо лучше реагирует на «portrait in the style of John Singer Sargent, warm golden hour lighting, visible brushstrokes, canvas texture». Чем точнее описание — тем предсказуемее результат. Это как с заказом в ресторане: «что-нибудь вкусненькое» и «стейк рибай medium rare с трюфельным маслом» — две большие разницы.

Стоит ли углубляться в параметры?

Однозначно да. Без тонкой настройки параметров даже идеальный промт может выдать совсем не то, чего ожидаешь. Один из самых полезных инструментов — параметр —iw (image weight), который определяет, насколько сильно нейросеть будет опираться на загруженное фото. Значение колеблется от 0 до 2, где 0 — полное игнорирование снимка, а 2 — максимальное сходство с оригиналом. Для портрета по фотографии оптимальное значение обычно лежит в диапазоне от 1.2 до 1.8. При —iw 2 сходство будет почти фотографическим, но стилизация пострадает. При —iw 0.5 нейросеть возьмёт от фото лишь общее впечатление — овал лица, цвет волос — а всё остальное нафантазирует сама.

Ещё один нюанс — параметр —s (stylize). Чем выше число (максимум 1000), тем «художественнее» и свободнее интерпретация. Для реалистичного портрета стоит держаться в районе 100–250, а для стилизации под живопись — смело поднимать до 500–750. Параметр —c (chaos) управляет разнообразием вариантов: при низком значении четыре превью будут похожи друг на друга, при высоком — каждый вариант окажется радикально другим. Для портретной работы лучше не увлекаться хаосом и держать его на уровне 5–15.

Стилизация: от масла до киберпанка

Вот где начинается настоящее творчество. Midjourney — кладезь стилевых возможностей, и грамотная стилизация превращает банальный снимок в произведение, от которого сложно оторвать взгляд. Один из самых популярных запросов — портрет маслом в духе Ренессанса. Для этого в промт стоит добавить «oil painting, Renaissance style, chiaroscuro lighting, dark moody background». Нейросеть подхватит характерные мягкие градиенты, глубокие тени и ту самую бархатистую текстуру холста, которая бросается в глаза на полотнах Караваджо.

Следующий довольно востребованный стиль — акварельный портрет. Здесь ключевые слова «watercolor painting, wet on wet technique, soft edges, paper texture» творят чудеса. Границы лица становятся мягкими, краски как будто перетекают друг в друга, а фон растворяется в полупрозрачных разводах. Отдельно стоит упомянуть стилизацию под кинокадр: «cinematic portrait, 35mm film grain, shallow depth of field, Kodak Portra 400 color palette» — и вот уже обычное фото выглядит как стоп-кадр из авторского фильма семидесятых.

А если хочется чего-то совсем необычного? Тогда стоит попробовать смешение стилей. Например, «portrait in the style of Alphonse Mucha meets cyberpunk, neon accents, Art Nouveau frame, holographic elements». Результат получается провокационный, но изысканный — модерновая рамка с цветочным орнаментом, а внутри неё лицо, подсвеченное неоновым розовым. Зрелище впечатляющее.

Что делать, если лицо «поплыло»?

Самая частая жалоба. Нейросеть сгенерировала красивый портрет, но сходство с оригиналом — процентов на тридцать. Знакомо? Это связано с тем, что Midjourney по своей природе — генеративная модель, а не инструмент точного копирования. Она вдохновляется фотографией, но не перерисовывает её пиксель в пиксель.

Первый приём для повышения сходства — увеличить image weight до 1.5–1.8 и снизить stylize до 50–100. Второй — добавить в промт конкретные физические описания: «with green eyes, freckles on nose and cheeks, auburn wavy hair, oval face shape». Да, это кажется избыточным — ведь фото уже загружено. Но на практике такие текстовые «подсказки» помогают нейросети сфокусироваться на правильных чертах. Третий щепетильный момент — параметр —no, который работает как антипромт. С его помощью нет смысла перечислять всё подряд, но «—no glasses, beard, wrinkles» спасёт, если нейросеть упорно добавляет человеку аксессуары или черты, которых на фото нет.

Версии Midjourney и их влияние на портрет

Тут тоже есть подводные камни. Буквально год назад пользователи работали на версии 5.2, которая уже тогда давала добротные результаты. Но с выходом шестой версии всё заметно изменилось — детализация кожи стала тоньше, глаза перестали «стекленеть», а волосы наконец-то начали выглядеть как отдельные пряди, а не как монолитная масса. Кстати, в шестой версии появился так называемый режим —style raw, который снижает «авторский почерк» нейросети и даёт более натуральную картинку. Для портретов по фото эта опция — настоящая находка.

Нужно отметить, что новые версии не всегда лучше старых в каждом аспекте. Версия 5.2, например, чуть лучше справлялась со стилизацией под графику и скетчи, а «шестёрка» иногда перестаёт следовать стилевым указаниям, если image weight выкручен на максимум. Да и скорость генерации в разных версиях отличается: на v6 один запрос обрабатывается в среднем за 50–70 секунд, тогда как v5.2 справлялась секунд за тридцать–сорок. Впрочем, ожидание того стоит.

Роль негативных промтов и весов

Тонкая работа. В Midjourney нет полноценных негативных промтов, как в Stable Diffusion, но параметр —no частично компенсирует этот пробел. А вот веса для отдельных частей промта — инструмент мощнейший, хоть и недооценённый. Двойное двоеточие с числом после слова (например, «portrait::2 oil painting::1 dark background::0.5») позволяет расставить приоритеты: лицо получит больше «внимания» алгоритма, стиль — умеренное, а фон — минимальное.

На практике это решает конкретную проблему: без весов нейросеть нередко увлекается фоном и деталями одежды, а само лицо прорабатывает поверхностно. Выставив повышенный вес на «portrait» или «face», можно направить ресурсы генерации туда, куда нужно. Но не стоит перебарщивать — при весе выше 3 начинаются артефакты и странные искажения. Оптимальный разброс весов для портрета: главный объект — от 1.5 до 2.5, стиль — от 0.8 до 1.5, второстепенные элементы — от 0.3 до 0.8.

Апскейл и доработка

Портрет сгенерирован, сходство устраивает, стиль попал в точку. Что дальше? Из четырёх превью нужно выбрать лучший вариант и «поднять» его разрешение. Midjourney предлагает несколько режимов апскейла: стандартный (subtle) и творческий (creative). Для портрета по фото предпочтительнее subtle — он сохраняет детали лица без лишней самодеятельности. Creative-апскейл может подрисовать фактуру, которой не было в оригинале, и иногда это выглядит удивительно хорошо, а иногда — наоборот.

После апскейла изображение обычно имеет разрешение около 2048×2048 пикселей. Для соцсетей и цифрового использования этого хватает с запасом. Но если портрет предназначен для печати — скажем, на холсте формата 60×80 см — то без дополнительного увеличения через сторонние сервисы вроде Topaz Gigapixel или Real-ESRGAN не обойтись. Эти инструменты доводят разрешение до 8000–10000 пикселей, сохраняя при этом текстуру и мелкие детали кожи. Кошелёк, правда, станет легче: лицензия Topaz стоит порядка 100 долларов, но это серьёзное вложение, которое окупается на первых же десяти работах.

Частые ошибки новичков

Перегруженный промт. Ведь кажется логичным описать всё до последней реснички — цвет глаз, форму бровей, текстуру кожи, стиль причёски, тип освещения, марку объектива, эпоху, настроение и ещё пятнадцать деталей. На деле же нейросеть теряется в потоке токенов и начинает генерировать нечто усреднённое, где ни один элемент не проработан глубоко. Золотое правило — не более 60–75 слов в промте, из которых 30–40 описывают стиль и атмосферу, а остальные — технические указания.

Вторая частая ошибка — игнорирование соотношения сторон. По умолчанию Midjourney генерирует квадрат (1:1), но для портрета куда лучше подходит вертикальный формат —ar 2:3 или —ar 3:4. Квадратная рамка «обрезает» плечи и макушку, из-за чего композиция выглядит тесной, словно человеку не хватает воздуха в кадре. И ещё одна ложка дёгтя — использование слишком низкого качества исходника. Мутное селфи с фронтальной камерой 2018 года — не лучший выбор. А вот чёткий снимок с основной камеры современного смартфона при хорошем свете — совсем другое дело.

Этика и подводные камни использования

Нельзя не упомянуть щепетильный вопрос авторских прав и этики. С юридической точки зрения ситуация довольно туманная: в разных странах сгенерированные нейросетью изображения имеют разный правовой статус. В США, к примеру, Бюро авторского права в 2023 году отказало в регистрации копирайта на ИИ-изображения, а в России пока прецедентной практики почти нет. Тем более что использование чужих фотографий для генерации портретов без согласия человека — территория этически неоднозначная. Даже если закон формально не запрещает такие махинации, не стоит забывать о элементарном уважении к личности.

Отдельная тема — коммерческое использование. Подписка Midjourney Pro (за 60 долларов в месяц) даёт право использовать сгенерированные изображения в коммерческих целях, но при условии, что годовой доход компании не превышает миллион долларов. Крупным бизнесам нужна корпоративная лицензия. Само собой, если портрет содержит узнаваемые черты реального человека — модели или публичной персоны — то для коммерческого использования потребуется ещё и модельный релиз.

Альтернативный подход: Midjourney плюс Photoshop

Опытные пользователи редко останавливаются на одной лишь генерации. Гибридный подход — вот где скрывается настоящая изюминка процесса. Схема довольно простая: Midjourney создаёт стилизованный портрет, а затем в Photoshop или Affinity Photo вручную корректируются мелкие несоответствия. Глаза чуть не того оттенка? Пара движений кистью на отдельном слое. Родинка исчезла? Нарисовать обратно — дело тридцати секунд. Форма носа немного «уехала»? Инструмент Liquify спасёт ситуацию.

К слову, существует и обратный подход — сначала подготовить фото в Photoshop (убрать фон, скорректировать контраст, может быть, даже добавить элементы будущей композиции), а уже потом скормить это подготовленное изображение Midjourney. Такой добротный многоступенчатый процесс требует больше времени, но результат часто превосходит ожидания. Ведь нейросеть получает «чистый» материал с правильным освещением и композицией, и ей остаётся лишь наложить стилистику.

Портрет, созданный с вниманием к деталям — от выбора правильного исходника до скрупулёзной настройки весов и параметров — способен стать не просто красивой картинкой для аватарки, а настоящим цифровым арт-объектом, который не стыдно распечатать на холсте и повесить на стену. Midjourney в умелых руках творит удивительные вещи, и с каждым обновлением грань между нейросетевой генерацией и работой живого художника становится всё тоньше. Удачи в экспериментах — и пусть каждый портрет получается именно таким, каким вы его задумали.