Промт на семейный портрет поколений: воссоздаём историю семьи в нейросети

Старые фотоальбомы всегда вызывали особый трепет, заставляя часами вглядываться в выцветшие лица предков. Буквально десятилетие назад восстановление утраченных снимков или создание масштабной ретроспективы было прерогативой профессиональных ретушёров, но сейчас алгоритмы перевернули правила игры. В представлении многих обывателей нейросети работают по волшебному щелчку, хотя на самом деле машина требует виртуозной настройки. Пыль времён оседает на сгенерированных кадрах только тогда, когда автор понимает физику света и специфику старинной оптики. Но чтобы не ошибиться и не получить пластиковых манекенов, нужно тщательно продумать каждую переменную в текстовом запросе.

Все топовые нейросети в одном месте

С чего начинается выбор? С определения точного временного отрезка. Это база. Ведь именно эпоха задаёт весь антураж, диктуя правила постановки. Разумеется, искусственный интеллект тяготеет к глянцевым журнальным картинкам. Но нам нужен добротный исторический реализм, а не пластиковая подделка. Стоит отметить, что без точных маркеров времени результат выглядит удручающе. Сначала мы прописываем год съёмки, далее следует указание конкретного типа камеры, ну и, наконец, фиксируем тип плёнки. Вся суть в том, что машина опирается на паттерны из огромной обучающей выборки, где каждая плёнка имеет свой цветовой профиль. К слову, английский язык здесь справляется лучше, выдавая более точные совпадения. А вот рабочий промт для конца девятнадцатого века:

A faded 1890s family portrait, extended family of 10 people gathered in a Victorian living room, sepia tone, daguerreotype style, formal attire, stiff poses, natural window light, historical accuracy, highly detailed faces, 8k resolution, shot on large format camera —ar 3:2 —style raw.

Одежда предков

Рюши на плотном воротнике. Именно с такой мелкой детали иногда начинается построение всего кадра. Стоит всерьёз задуматься над гардеробом персонажей, если хочется получить достоверную картину. Не стоит перегружать запрос абстрактными описаниями ткани или длинными предложениями. Лучше отказаться от общих фраз вроде «старые вещи», которые только путают алгоритм. К первой группе обязательных маркеров относится прямое название фасона, во-вторых, указывается материал, ну и, конечно же, цвет. Дело в том, что нейросети отлично понимают конкретику. Аристократический бомонд прошлого века предпочитал строгие формы, поэтому словосочетание tweed three-piece suit сработает идеально. Впрочем, есть и ложка дёгтя. Слишком вычурный наряд солирует в кадре, отвлекая внимание от лиц главных героев. Обыватель довольно часто забывает про этот нюанс, получая в итоге каталог модной одежды вместо душевного портрета. Пример запроса для ревущих двадцатых:

1920s authentic family portrait, 5 people, parents sitting, three children standing behind, flapper dresses and tweed three-piece suits, soft cinematic lighting, analog photography, scratches and dust on film, vintage aesthetic, 35mm lens, muted colors —ar 4:3 —v 6.0.

Сложно ли контролировать композицию?

Да, но результат того стоит. Выручит грамотное позиционирование объектов внутри фрейма. Львиная доля неудачных генераций связана именно со свалкой людей в кадре, когда руки и ноги сплетаются в жуткий клубок. Нельзя не упомянуть, что нейросети всё ещё плохо считают количество персонажей (особенно если их больше пяти). Поэтому стоит прописывать расстановку максимально чётко. Группа, выстроенная классическим треугольником, освещённая боковым светом, запечатлённая на фоне кирпичной стены, выглядит впечатляюще. Это надёжно. Потому что проверено. Временем и тысячами попыток. Тем более, что правильная геометрия кадра творит чудеса, скрывая мелкие огрехи генерации. Кладезь вдохновения можно найти в реальных архивах. Запрос для советской эпохи:

Все топовые нейросети в одной подписке! 🚀

Устали оплачивать десятки сервисов отдельно и постоянно включать VPN? Появилась платформа, которая объединяет более 90 передовых ИИ в одном окне. Пишите тексты с новейшими версиями GPT и Claude, создавайте шедевры в Midjourney и генерируйте видео в Sora и Kling. Тексты, изображения, видео и музыка — всё работает на любых устройствах без «танцев с бубном».

Попробуйте бесплатно прямо сейчас! Переходите по ссылке и получите бонусные токены для старта 👉 https://clck.ru/3RNCRL

Все топовые нейросети в одном месте

A multi-generational family portrait set in 1960s, grandfather and grandmother seated in the center, parents standing beside them, authentic soviet apartment interior, mid-century furniture, Kodachrome film effect, warm natural lighting from the window, realistic skin texture, nostalgic mood —ar 16:9.

Технические нюансы

Генерация многофигурных композиций бьёт по бюджету времени. Настоящий рай для перфекциониста начинается при использовании интерфейсов с поддержкой ControlNet. С одной стороны, это требует мощного железа, с другой — даёт невероятный контроль над позами. Конечно, новички грезят о волшебной кнопке, однако реальность сурова. И всё же, если разложить по полочкам весь процесс, махинации с картами глубины не кажутся такими уж непреодолимыми. Не стоит забывать про негативный промт. Ведь именно он работает как спасательный круг, уберегая от мутаций. Скрупулёзный подход здесь просто необходим. Бросается в глаза асимметрия лиц? Добавьте в негатив deformed faces. Обязательно внести свою лепту должен запрет на современные гаджеты, иначе в руках у прадедушки окажется смартфон. Сочетание позитива и негатива может выглядеть так:

Positive: Realistic 1970s large family gathering in a backyard, summer barbecue aesthetic, Polaroid style, vivid colors, casual denim clothes, candid smiles, soft sun flares, 85mm portrait lens, photorealistic.

Negative: deformed, extra limbs, bad anatomy, modern clothes, smartphones, overexposed, text, watermarks, CGI, plastic skin.

Сохранение лиц

Обучение на собственных данных. Задача не из лёгких. А вот оригинальное название технологии тренировки — LoRA — знакомо сегодня каждому серьёзному энтузиасту. Обучить модель на нескольких уцелевших фотографиях прадедушки — вполне посильная задача. Процесс не сложный, но довольно кропотливый. Сначала собирается датасет из чистых лиц, затем настраиваются параметры обучения, последним в списке идёт тестирование весов. Безусловно, артефакты всплывут довольно быстро, если исходники были плохого качества. Но есть и минусы. Наляпистость заднего плана иногда портит всю картину, когда модель переобучена. Главное — угадать с весом модели в финальном запросе, чтобы персонаж гармонично вписался в среду. Промт с внедрением обученной модели:

Portrait of a massive family in 1980s, standing near a classic car, highly detailed realistic faces, <lora:my_grandpa:0.6>, <lora:vintage_film:0.4>, Kodak Gold 200, nostalgic autumn afternoon, golden hour lighting, cinematic composition, ultra-realistic —ar 3:2 —stylize 200.

Эмоции в кадре

Строгие немигающие взгляды. В девятнадцатом веке улыбаться перед громоздким объективом было не принято. Это связано с тем, что выдержка камеры составляла около шестидесяти секунд. Любое непоседливое чадо, случайно дёрнув головой, смазывало весь кадр. Поэтому стоит добавлять в промты слова solemn expression или neutral face для ранних эпох. А если мы воссоздаём атмосферу восьмидесятых годов двадцатого века, то здесь уже вполне уместны широкие улыбки. Впрочем, алгоритмы довольно часто скатываются в зловещую долину, рисуя абсолютно одинаковые, пугающие оскалы всем членам семьи. Чтобы избежать этого кошмара, нет смысла переплачивать за дорогие плагины. Достаточно прописать в запросе candid photography и subtle facial expressions. Само собой, этот метод работает не в ста процентах случаев. Но попытаться стоит. Подобный запрос может звучать так:

A candid shot of a family from the 1990s sitting on a couch watching TV, laughing naturally, subtle expressions, authentic messy living room, VHS tape aesthetic, low quality home video style, flash photography effect, real life, non-posed —ar 4:3.

Итоговая сборка

Отдельного внимания всегда заслуживает свет. Свет льётся рекой, пересвечивая важные детали, если неправильно задать параметры экспозиции. Мягкий рассеянный свет из окна — самый самобытный и безопасный вариант для интерьерных съёмок. К тому же, он элегантно скрывает мелкие дефекты нейросетевой рисовки. Нужно отметить, что использование прямой вспышки in camera flash отлично имитирует любительские фотокарточки мыльниц девяностых. Обе стороны медали здесь в том, что жёсткая вспышка делает плоскими лица, но колоссально добавляет реализма. Ну, а добавление виньетирования окончательно погружает зрителя в прошлое. Венчает композицию лёгкий плёночный шум. Удачи в этих увлекательных экспериментах, пусть каждый сгенерированный портрет заслуживает истинного уважения и бережно хранит память о минувших днях!