Промт для нейросети с ребёнком (с примерами готовых промтов)

Создание качественных изображений с детьми в нейросетях — задача, которая на первый взгляд кажется элементарной, но на практике превращается в настоящий квест с препятствиями. Ведь любой, кто пробовал получить от искусственного интеллекта портрет милого малыша, наверняка сталкивался с пугающими искажениями, лишними конечностями или странным, «пластиковым» взглядом, от которого по спине бегут мурашки. К тому же, современные генераторы вроде Midjourney или Stable Diffusion имеют довольно жёсткие этические фильтры, блокирующие безобидные запросы просто из-за неправильно подобранных слов. А начать стоит с понимания того, как именно алгоритм воспринимает возраст и пропорции, чтобы результат не вызывал желания закрыть браузер, а вызывал искреннее восхищение.

Сложно ли определить возраст?

Для человека — нет, а вот для машины — задача не из лёгких. Если вы напишете просто «child» (ребенок), нейросеть выдаст нечто среднее, не имеющее ярко выраженных черт ни младенца, ни подростка. Результат часто получается размытым. Поэтому конкретика здесь творит чудеса. Вместо общих фраз стоит использовать точные указания: «newborn» (новорожденный), «toddler» (малыш, начинающий ходить, 1-3 года), «preschooler» (дошкольник) или указывать точную цифру — «5-year-old boy». Это позволяет алгоритму подтянуть правильные данные о пропорциях тела и чертах лица. Ведь у двухлетнего карапуза голова относительно тела гораздо больше, чем у семилетнего школьника, и нейросеть об этом «знает», только если ей прямо сказать. Важно помнить и про этническую принадлежность, если этот нюанс имеет значение для вашей задумки, иначе система выдаст усреднённый европейский типаж.

Анатомия и «зловещая долина»

Главный бич генерации людей — это руки и глаза. У детей эти дефекты заметны особенно сильно. Почему так происходит? Дело в том, что нейросети обучались на миллиардах фото, где руки часто находятся в движении или перекрыты игрушками. В итоге мы получаем семипалых монстров. Бороться с этим можно и нужно. Довольно эффективный метод — занять руки ребёнка чем-то конкретным. Промт вроде «holding a red apple» (держит красное яблоко) или «clutching a teddy bear» (сжимает плюшевого мишку) заставляет алгоритм рисовать конкретную форму хвата, а не абстрактную кисть. Что касается глаз, то здесь помогает уточнение «highly detailed eyes» (детально проработанные глаза) или «sparkling eyes» (сверкающие глаза). Взгляд сразу становится живым. Но не стоит забывать и про негативные промты (параметр --no в Midjourney), куда следует вписать «deformed hands», «bad anatomy», «extra fingers». Это, конечно, не панацея, но процент брака снижает существенно.

Стилистика изображения: Фотореализм

Если ваша цель — получить кадр, неотличимый от работы профессионального фотографа, придётся углубиться в технические термины. Простого слова «photo» недостаточно. Здесь на сцену выходят параметры камеры и освещения. Добротный реалистичный портрет получится, если добавить в описание «shot on 35mm lens» (снято на 35-мм объектив) или «Canon EOS R5». Это задает определенную глубину резкости и цветопередачу. Освещение же играет первую скрипку. Для мягкого, сказочного портрета идеально подойдёт «golden hour» (золотой час) или «soft natural lighting» (мягкое естественное освещение). А вот жёсткий студийный свет может сделать лицо ребёнка слишком взрослым и драматичным, что не всегда уместно.

Рассмотрим готовый пример запроса для фотореалистичного портрета девочки в осеннем парке. Промт может выглядеть так:

hyper-realistic photo of a cute 4-year-old girl, blonde curly hair, wearing a beige knitted sweater, sitting on a pile of autumn leaves, laughing, soft sunlight, bokeh background, shot on 85mm lens, f/1.8, high detail —ar 3:2

Этот набор команд создаст тёплую, живую картинку с размытым фоном.

Сказочные и мультипликационные сюжеты

Дети и магия — сочетание беспроигрышное. Но тут нужно сразу увести нейросеть от реализма в сторону стилизации. Слова-маркеры вроде «Disney style», «Pixar style», «3D render» или «watercolor illustration» (акварельная иллюстрация) меняют правила игры. Пропорции становятся более гротескными, глаза — больше, а цвета — насыщеннее. Это отличный выбор для создания иллюстраций к детским книгам или открыткам. Антураж в таких работах должен быть соответствующим: волшебный лес, летающие острова, уютная детская с горами игрушек.

Попробуем сконструировать запрос для мальчика-космонавта в стиле 3D-мультфильма. Основа будет следующей:

adorable 6-year-old boy astronaut, wearing a futuristic white spacesuit, holding a glowing planet, standing on the moon surface, starry sky background, Pixar style, 3d render, octane render, vivid colors, cute expression —ar 2:3

Здесь «octane render» и «vivid colors» отвечают за «сочность» и объём картинки, характерные для современной анимации.

Эмоции и действие

Статичные позы (как на паспорт) — это скучно. Живой ребёнок — это всегда движение, эмоция, игра. Заставить нейросеть передать искреннюю радость или удивление довольно сложно, но возможно. Используйте глаголы действия: «jumping» (прыгает), «running» (бежит), «splashing in puddles» (шлёпает по лужам), «examining a bug» (разглядывает жука). Эмоциональные маркеры тоже важны: «laughing out loud» (громко смеётся), «crying» (плачет — если нужен драматизм), «curious look» (любопытный взгляд).

Представим ситуацию: нужно изобразить детей, играющих с щенком. Промт может быть таким:

full body shot, two happy children, a boy and a girl, 7 years old, playing with a golden retriever puppy on green grass, dynamic pose, joyful expressions, sunny summer day, motion blur, candid photography —ar 16:9

Слово «candid» (случайный, не постановочный) здесь ключевое — оно убирает эффект позирования, делая снимок живым.

Одежда и детали окружения

Нейросеть часто грешит тем, что одевает детей в какие-то лохмотья или, наоборот, в слишком вычурные наряды викторианской эпохи, если не указать иное. Современная одежда описывается просто: «denim overalls» (джинсовый комбинезон), «colorful t-shirt» (цветная футболка), «sneakers» (кроссовки). Однако если вы хотите создать исторический образ или фэнтези, придётся проявить фантазию. «Vintage dress» (винтажное платье), «knight armor» (рыцарские доспехи), «elf costume» (костюм эльфа). Детали окружения помогают раскрыть историю. Не просто «room» (комната), а «messy playroom filled with toys» (грязная игровая, полная игрушек).

Возьмем сложный пример: девочка в стиле стимпанк. Запрос будет насыщен деталями:

portrait of a 10-year-old girl inventor, steampunk style, wearing brass goggles on head, leather apron, holding a wrench, background is a workshop with gears and steam, cinematic lighting, detailed textures, copper and brown tones —v 6.0

Такой запрос создаст атмосферное и сложное изображение.

Стоит ли использовать имена знаменитостей?

Иногда возникает соблазн добавить в промт «like Harry Potter» или «baby Yoda». С одной стороны, это быстрый способ получить узнаваемый образ. С другой — многие платформы сейчас блокируют имена реальных людей или защищённых авторским правом персонажей. Да и результат часто получается вторичным. Лучше описывать характеристики персонажа: «boy with round glasses and a scar» (мальчик в круглых очках и со шрамом). Это безопаснее и даёт больше творческой свободы. К тому же, использование имён может привести к эффекту «зловещей долины», когда лицо ребёнка будет выглядеть как лицо взрослого актёра, натянутое на маленькую голову. Зрелище, прямо скажем, на любителя.

Работа с освещением и цветом

Свет — это кисть фотографа, даже если этот фотограф виртуальный. Плоское освещение убивает объём, делая лицо похожим на маску. Профессионалы используют сложные схемы. «Rim lighting» (контровой свет) создает красивый ореол вокруг волос, отделяя фигуру от фона. «Volumetric lighting» (объёмный свет) добавляет в воздух частички пыли и лучи, создавая атмосферу таинственности. «Cinematic teal and orange» — классическая киношная схема цветов, которая делает картинку дорогой и приятной глазу.

Для примера создадим ночной сказочный сюжет. Промт:

sleeping baby inside a giant glowing flower, magical forest at night, bioluminescent plants, soft purple and blue light, fireflies around, dreamy atmosphere, fantasy art, intricate details —ar 4:5

Здесь цвета и свет играют главную роль, создавая настроение покоя и магии.

Особенности этической цензуры

Нельзя не упомянуть о строгих правилах безопасности. Платформы очень болезненно реагируют на любые намёки на наготу или насилие с участием несовершеннолетних. И это правильно. Но иногда под раздачу попадают вполне невинные запросы. Слова «bath» (ванна), «beach» (пляж), «bikini», «naked» (даже если речь о ногах) практически гарантированно приведут к бану или блокировке генерации. Даже слово «chest» (грудь) в контексте «сундук» может вызвать подозрения у алгоритма.

Как обойти эти ограничения, если нужен сюжет на пляже? Используйте эвфемизмы и акцент на действии. Вместо «girl in swimsuit on the beach» попробуйте «child building a sandcastle by the ocean, wearing summer clothes». Это с большей вероятностью пройдет фильтр. Избегайте двусмысленностей. Если нейросеть упорно выдаёт предупреждение, попробуйте переформулировать запрос, убрав любые упоминания открытых участков тела или сменив локацию.

Технические модификаторы и версии

Разные версии нейросетей понимают промты по-разному. В Midjourney v5 и v6 важен естественный язык. Не нужно писать просто набор слов через запятую, лучше строить связные фразы. А вот в Stable Diffusion по-прежнему правят бал теги и веса (скобочки, усиливающие значение слова). Полезный модификатор — --chaos (в MJ). Значение от 0 до 100 определяет, насколько разнообразными будут четыре предложенных варианта. Если поставить --chaos 50, нейросеть выдаст совершенно непохожие друг на друга картинки, что полезно при поиске идей. Параметр --stylize (или --s) отвечает за художественность. Высокие значения (например, --s 750) сделают картинку очень красивой, но могут уйти далеко от вашего описания. Низкие (--s 50) будут строго следовать тексту, но могут выглядеть суховато.

Распространённые ошибки новичков

Главная ошибка — перегруженность. Попытка впихнуть в один запрос «девочку, собаку, замок, дракона, космический корабль и закат» приведет к каше. Нейросеть не может сфокусироваться на всём сразу. Львиная доля успеха зависит от умения выделить главное. Если сюжет сложный, лучше использовать методы in-painting (дорисовки) или коллажирования, создавая сцену по частям. Ещё одна ошибка — противоречивые команды. Нельзя требовать одновременно «sunny day» (солнечный день) и «night sky» (ночное небо), если только это не сюрреализм. Алгоритм просто сойдёт с ума и выдаст артефакты. Также не стоит забывать про соотношение сторон. По умолчанию генерируется квадрат, но для ростовых портретов лучше подходит вертикальный формат (--ar 2:3), а для пейзажных сцен с группой детей — горизонтальный (--ar 16:9).

Готовые шаблоны для старта

Чтобы не начинать с чистого листа, можно использовать проверенные конструкции.

Вот вариант для любителей чёрно-белой фотографии:

black and white portrait of a thoughtful 8-year-old boy, rain drops on window glass, dramatic shadows, moody atmosphere, high contrast, Leica style —ar 2:3

Это создаст глубокий, эмоциональный образ.

А вот идея для семейного альбома в стиле живописи маслом:

oil painting of a family picnic, mother and two kids sitting on a blanket, green meadow, impressionism style, Claude Monet vibes, thick brushstrokes, vibrant pastel colors

Если же нужно что-то футуристическое, попробуйте киберпанк:

cyberspace gamer girl, 12 years old, wearing neon headphones, virtual reality visor, futuristic city background, blue and pink neon lights, digital art, sharp focus

Эксперименты — ключ к успеху

Конечно, универсального «волшебного» промта не существует. То, что сработало сегодня, завтра после обновления алгоритма может выдать другой результат. Генерация изображений — это процесс перебора, настройки и удачи. Иногда случайная опечатка в слове дарит шедевр, а тщательно выверенный текст — посредственность. Но, зная базовые принципы анатомии, света и композиции, вы сможете управлять этим хаосом. Главное — не бояться пробовать новые сочетания стилей и параметров.

Пусть ваши виртуальные герои всегда получаются живыми, пальцев на руках будет ровно пять, а результат превосходит самые смелые ожидания!