Промт для соединения фото (с примерами готовых промтов)

Ни одна современная творческая задача в сфере цифрового искусства не вызывает столько ажиотажа, сколько попытка скрестить две, казалось бы, несочетаемые реальности. Раньше для создания качественного коллажа требовались часы кропотливой работы в графических редакторах, манипуляции с масками и цветокоррекцией, а результат всё равно зачастую выдавал своё искусственное происхождение. Обыватель смотрел на картинку и понимал: это монтаж. Сегодня же нейросети перевернули игру, позволяя смешивать образы на уровне семантики и пикселей за считанные секунды. Желание увидеть себя в образе киберпанк-самурая или превратить детский рисунок в фотореалистичный пейзаж стало вполне осуществимым. Однако просто загрузить два файла в систему недостаточно, ведь без грамотного текстового сопровождения магия превращается в хаос. А начать стоит с понимания того, как именно алгоритм «видит» ваши исходники.

Как это работает на самом деле?

Механика процесса довольно сложна, хотя для пользователя она скрыта за простым интерфейсом. Нейросеть не просто накладывает одно изображение на другое с полупрозрачностью. Она деконструирует оба изображения, выделяя из них ключевые векторы — композицию, цветовую палитру, формы и даже настроение. Затем, руководствуясь текстовой подсказкой, она собирает новый образ, пытаясь угодить и картинкам-референсам, и вашим словам. Сложно ли это? Да, если не знать принципов приоритетности. Ведь часто бывает так, что стиль одного фото полностью «съедает» сюжет другого, или же цвета смешиваются в грязную кашу. Тут-то и выходит на сцену промт — текстовое описание, которое служит своего рода клеем и навигатором для искусственного интеллекта.

Midjourney и режим Blend

Самый простой способ, с которого обычно начинают новички, — это использование встроенной команды смешивания. В Midjourney это реализуется через команду /blend. Это удобно. Ведь вам не нужно возиться с прямыми ссылками. Вы просто загружаете от двух до пяти изображений, и система сама пытается найти между ними золотую середину. Но здесь есть нюанс. Этот режим работает как «чёрный ящик»: вы не можете добавить текстовое описание в процессе самого смешивания через интерфейс (в мобильной версии), но можете добавить его, если используете стандартный метод с ссылками. И всё же, для чистого эксперимента /blend подходит идеально. Например, загрузив фото своей кошки и изображение тигра, вы довольно быстро получите домашнего мини-хищника. Результат часто бывает непредсказуемым, но именно в этом и кроется изюминка генеративного искусства.

Ручное управление через ссылки

Более надёжный, хоть и требующий лишних телодвижений метод — использование прямых ссылок на изображения внутри обычного промта /imagine. Конструкция выглядит следующим образом: сначала вы вставляете ссылку на первое изображение, затем, через пробел, ссылку на второе, и только потом пишете текстовый запрос. Это дает колоссальный контроль. Ведь теперь вы можете словами объяснить нейросети, что именно нужно взять от каждой картинки. К примеру, от первого фото нам нужна поза, а от второго — стиль рисовки. Без текстового уточнения нейросеть будет гадать, и не факт, что её догадка совпадёт с вашей задумкой. Ссылки должны быть прямыми (заканчиваться на .jpg или .png), иначе магия не сработает.

Вес изображения: кто главный?

Часто возникает ситуация, когда нейросеть слишком сильно опирается на референс, игнорируя текстовый промт, или наоборот. Для регулировки этого баланса в Midjourney существует параметр –iw (Image Weight). Значения варьируются от 0.5 до 2. Если вы хотите, чтобы исходные фото играли первую скрипку и лишь слегка корректировались текстом, стоит выставить значение –iw 2. Если же картинки нужны лишь для общего вдохновения и композиции, а текст должен солировать, подойдет значение –iw 0.5. По умолчанию этот параметр равен единице. Это мощный рычаг управления, о котором, к сожалению, многие забывают, получая в итоге совсем не то, о чем грезили.

Слияние стилей: фото плюс живопись

Классический прием, который позволяет создавать настоящие шедевры, — это объединение обычной фотографии и изображения в определённом художественном стиле. Допустим, у вас есть добротный портрет друга, и вы хотите стилизовать его под картину Ван Гога.

Промт может выглядеть так:

[Ссылка на фото человека] [Ссылка на картину Ван Гога] oil painting style, thick brushstrokes, starry night atmosphere, swirling clouds background, vivid colors, masterpiece –v 6.0

В данном случае мы не просто даем две картинки. Мы текстом дублируем то, что изображено на стилевом референсе («масляная живопись», «густые мазки»). Это усиливает эффект. Нейросеть понимает: ага, пользователь хочет не просто смешать пиксели, он хочет перенести именно технику исполнения. Результат обычно выглядит впечатляюще, сохраняя черты лица, но полностью меняя антураж.

Перенос персонажа в новую локацию

Задача не из лёгких. Взять человека из студии и поместить его на Марс, сохранив освещение, — это вызов. Просто соединить фото человека и фото пейзажа часто приводит к тому, что человек становится полупрозрачным или вплавляется в скалы.

Здесь поможет следующий подход:

[Ссылка на человека] [Ссылка на пейзаж Марса] full body shot of a man standing on mars surface, red dust, sci-fi space suit, realistic lighting, highly detailed environment, 8k –iw 1.5

Обратите внимание на детализацию в тексте. Мы описываем то, что должно получиться в итоге. Мы подсказываем нейросети, что человек должен быть «в скафандре» (даже если на фото он в футболке, это поможет адаптировать образ) и стоять «на поверхности». Параметр веса –iw 1.5 здесь критичен, так как нам важно сохранить узнаваемость исходных образов.

Текстурная трансформация

Ещё один интересный кейс — наложение текстуры на форму. Представьте, что вы хотите сделать портрет девушки, состоящий из дыма или воды.

Промт для такого эксперимента:

[Ссылка на силуэт девушки] [Ссылка на текстуру дыма] ethereal silhouette made of white smoke, swirling mist, dark background, mysterious atmosphere, abstract art, double exposure effect –v 6.0

Ключевое словосочетание здесь — «double exposure effect» (эффект двойной экспозиции). Оно служит своеобразным триггером для нейросети, подсказывая ей правильный алгоритм смешивания. Без этой фразы система может просто поставить девушку рядом с клубами дыма. А нам нужно именно слияние, взаимопроникновение форм. Дым становится телом, а тело — дымом. Зрелище, надо сказать, завораживающее.

Эскиз в фотореализм

Для архитекторов и дизайнеров интерьера кладезь возможностей открывается при превращении набросков в готовые рендеры. Допустим, у вас есть кривой скетч здания на салфетке.

Промт для превращения его в здание:

[Ссылка на скетч] modern architectural building, glass facade, concrete structure, sunset lighting, photorealistic, architectural photography, urban environment –iw 0.5 –v 6.0

Здесь мы намеренно понижаем вес изображения (–iw 0.5). Почему? Потому что сам по себе скетч может быть небрежным, и нам не нужно, чтобы нейросеть копировала кривые линии карандаша. Нам нужна лишь общая композиция. Львиная доля работы ложится на текстовое описание («фотореалистичность», «стеклянный фасад»). Текст «вытягивает» картинку на новый уровень качества, используя эскиз лишь как каркас.

Stable Diffusion и ControlNet

Если говорить о профессиональном уровне, нельзя не упомянуть Stable Diffusion. Там процесс соединения фото реализован иначе и гораздо глубже. Главный инструмент здесь — ControlNet. Это не просто промт, это технология, позволяющая копировать из исходника конкретные карты: карту глубины, карту краев (Canny) или позу скелета (OpenPose).

Текстовый промт в таком случае работает в связке с настройками. Пример промта для Image-to-Image с использованием ControlNet (Canny):

cyberpunk woman, neon lights, night city, rain, detailed face, futuristic armor, glowing eyes, cinematic shot

В поле «Negative prompt» обязательно стоит добавить: deformed, ugly, bad anatomy, blur.

В отличие от Midjourney, здесь вы полностью контролируете, насколько сильно изменится исходник, с помощью ползунка «Denoising Strength». Если выставить его на 0.3, картинка лишь слегка изменится. Если на 0.7 — изменится значительно, сохранив лишь общие черты. Это скрупулезный процесс, требующий настройки, но и результат получается куда более предсказуемым.

Типичные ошибки: чего делать не стоит?

Казалось бы, всё просто. Но новички часто натыкаются на одни и те же грабли. Во-первых, не стоит загружать изображения с кардинально разным соотношением сторон. Если одно фото вертикальное, а другое горизонтальное, нейросеть может сплющить или обрезать важные детали. Лучше заранее кадрировать их под один формат. Во-вторых, не перегружайте промт противоречивыми командами. Если вы даете фото солнечного пляжа, а в тексте пишете «dark gloomy forest», результат будет странным и неестественным. Нейросеть попытается выполнить оба условия, и получится сюрреалистичный кошмар. Логика должна прослеживаться и в визуальном ряде, и в текстовом.

Нюансы с лицами

Самая большая боль при смешивании фото — потеря сходства лица. Грезят пользователи о том, чтобы поместить себя в фильм, а получают просто похожего человека. Дело в том, что стандартные модели не заточены под клонирование личности (deepfake) без специальных дополнений. В промте можно пытаться исправить это подробным описанием внешности:

[Ссылка на ваше фото] [Ссылка на фон] [Описание фона], man with short brown hair and green eyes, wearing blue suit, looking at camera, realistic facial features –iw 2

Однако даже с высоким весом изображения (–iw 2) 100% сходства добиться сложно. Нейросеть интерпретирует лицо как набор черт, а не как неизменяемый объект. Для решения этой задачи в экосистеме Stable Diffusion используют специальные плагины вроде InsightFace, но это уже тема для отдельного глубокого погружения. В рамках же обычного промтинга стоит быть готовым к тому, что вы получите «брата-близнеца», а не точную копию.

Влияние стиля и эпохи

Интересные эффекты получаются при смешивании фото современных объектов и старинных фотографий или гравюр. Это создает ощущение путешествия во времени.

Промт:

[Ссылка на фото Tesla] [Ссылка на винтажное фото 1920-х] 1920s vintage photograph, sepia tone, grain, noise, old car, street of New York in 20s, retro style, authentic look

Мы берем футуристичный автомобиль и насильно погружаем его в эстетику прошлого. Слова-маркеры «sepia tone» (сепия), «grain» (зерно) и «noise» (шум) помогают «состарить» изображение. И это работает безотказно. Контраст эпох всегда приковывает внимание зрителя. Автомобиль сохраняет свои формы, но его материалы меняются: глянец превращается в матовый металл, а светодиоды — в тусклые фары накаливания.

Абстракции и эмоции

Иногда цель — не реализм, а чистое искусство. Попробуйте смешать фотографию человека с изображением абстрактной живописи или даже с фото разбитого стекла.

Промт:

[Ссылка на портрет] [Ссылка на разбитое стекло] shattered glass effect, fragmented face, abstract cubism, emotional, dramatic lighting, sharp edges, melancholy

Здесь мы используем слова, передающие настроение («melancholy», «emotional»). Нейросети последних поколений научились неплохо понимать эмоциональный контекст. Лицо разобьется на осколки, но сохранит человеческие черты. Это мощный художественный прием для создания обложек музыкальных альбомов или постеров.

Работа с освещением

Свет — это то, что либо спасет ваш коллаж, либо уничтожит его. При соединении фото критически важно учитывать направление света. Если на одном фото свет падает справа, а на другом — слева, мозг зрителя мгновенно заметит подвох. В промте можно попытаться унифицировать освещение.

Добавьте в конец описания фразы типа: cinematic lighting, volumetric light, studio lighting, neutral light. Это заставит нейросеть перерисовать светотеневой рисунок на обоих исходниках, приводя их к общему знаменателю. Это не всегда срабатывает идеально, но часто спасает ситуацию, делая картинку более цельной.

Финальная шлифовка

Получив результат, не спешите радоваться или расстраиваться. Генерация — это процесс итеративный. Редко когда первый же вариант попадает в десятку. Используйте кнопки вариаций (V1-V4 в Midjourney), чтобы посмотреть, как ещё нейросеть может интерпретировать ваш запрос. Иногда случайный сбой алгоритма рождает гениальное решение. А если добавить к этому последующую обработку в Photoshop для цветокоррекции, то результат может стать по-настоящему профессиональным. Ведь ИИ — это всего лишь инструмент, кисть в руках художника, а видение итоговой картины всегда остается за вами.

Экспериментируйте смелее, смешивайте несовместимое, играйте с весами и стилями. Именно в этих бесконечных попытках рождается ваш уникальный визуальный язык, который в будущем станет вашей визитной карточкой.