Школьник промт: как сгенерировать фото и текст от лица подростка в нейросети

В сети представлено множество идеализированных лиц, вылизанных алгоритмами до неестественного глянца. Возникает резонный вопрос об умении машин передавать сложный переходный возраст с его угловатостью, внутренней борьбой и бунтарским духом. Сгенерировать банального ребёнка довольно просто, однако заставить модель говорить сбивчивым, живым языком пятнадцатилетнего подростка или нарисовать прыщеватого юношу в растянутой худи — задача со звёздочкой. Львиная доля пользовательских запросов разбивается о внутренние цензоры, превращающие живого тинейджера в пластиковую куклу. Но чтобы не ошибиться в тонких настройках, нужно изначально отказаться от стерильных шаблонных конструкций.

В чём главный подвох?

Попытка не пытка. Сложно ли обмануть алгоритм диффузионной сети? На самом деле, базовые запросы неизбежно выдают либо откровенно детские пухлые черты, либо уже сформировавшихся, перезревших студентов. Буквально пару лет назад это было абсолютной нормой для ранних версий генераторов, но сейчас инструментарий стал в разы тоньше. Главное — угадать с палитрой негативных вводных и весов. Дело в том, что нейросети искусственно сглаживают текстуру кожи, напрочь убивая всю самобытную подростковую эстетику. Приходится буквально заставлять ИИ добавлять лёгкое акне, растрёпанные волосы, асимметрию лица, мелкие шрамы. К слову, именно грамотный, скрупулёзный де-гламур творит настоящие чудеса при создании портретов.

Генерация лиц подростков

Взгляд, устремлённый мимо объектива камеры, выдаёт внутреннюю отстранённость. Именно с такой мелкой, казалось бы, детали начинается создание достоверного психологического портрета. В промтах для мощных движков вроде Midjourney или Stable Diffusion первую скрипку играет точнейшее указание физиологических особенностей. Один из самых популярных видов запросов начинается с фиксации возраста на отметке четынадцати-шестнадцати лет, далее следует детализация несовершенств эпидермиса, ну и, наконец, прописывается схема освещения. Отлично работает, например, такая связка:

raw candid photo of a 15-year-old russian schoolboy, slightly messy hair, mild acne on forehead, wearing an oversized faded vintage t-shirt, standing in a dim typical school corridor, shot on 35mm film, grainy texture —v 6.0 —style raw

Безусловно, здесь солирует именно плёночный, слегка грязный эффект. Ведь идеальная цифровая картинка мгновенно рушит весь тщательно выстроенный колоритный антураж.

Нереальный визуал и кинематографичное видео в пару кликов 🎬

Нужен крутой концепт-арт, реалистичная анимация или профессиональный апскейл? Теперь у вас есть единый доступ к лучшим визуальным нейросетям планеты: Midjourney, Runway, Kling и Sora. Улучшайте качество готовых роликов до максимума с помощью встроенных ИИ-инструментов. Никаких сложных настроек, мощного ПК или зарубежных карт. Всё работает прямо в браузере или в Telegram-боте!

Откройте новые горизонты для творчества. Жмите на ссылку, регистрируйтесь и создавайте шедевры 👉 https://clck.ru/3RNCRL

Стоит ли использовать сложный свет?

Свет решает всё. Стоит ли использовать сложный студийный свет? Однозначно нет, если цель — суровый реализм. Естественно, выверенный контровик выглядит внушительно, однако он мгновенно выдаёт искусственное происхождение снимка. Куда логичнее использовать бытовые, повседневные источники, которые не сильно ударят по восприятию зрителя своей вычурностью. К первой группе таких источников относится тусклая люминесцентная лампа в подъезде, следующий важный критерий — свет от экрана смартфона, бьющий в лицо снизу вверх. Тем более, что запрос:

lit by smartphone screen glow in a dark room

мгновенно скрывает мелкие артефакты генерации в глубоких тенях. Ну и, конечно же, не стоит забывать про пасмурное небо сквозь грязное окно, которое добавляет кадру нужный градус тоски.

Визуальный антураж и одежда

Выбор шмоток крайне важен. Кстати, школьная форма западного образца или стерильные американские металлические шкафчики часто лезут на передний план по умолчанию, если жёстко не задать региональный контекст. Выручит постсоветский добротный гранж, знакомый каждому отечественному обывателю. Чтобы получить правильную, щемящую атмосферу, в текстовый запрос умело вплетают обшарпанные панельные дома, ржавые гаражи, заснеженные теплотрассы. Попробуйте скормить боту такую конструкцию:

Portrait of a 16-year-old teen boy sitting on a concrete bench near a brutalist panel building in winter, wearing a massive black puffy jacket and a beanie, pale skin, realistic facial features, cinematic gloomy lighting, 8k

Впрочем, наляпистость заднего плана может сильно отвлечь от эмоций на лице персонажа. Фокус, сбившийся от избытка деталей, легко отсекает правильная глубина резкости, прописанная через:

shallow depth of field, heavily blurred background

Нельзя не упомянуть, что именно такие технические нюансы добавляют плоскому снимку настоящей фотографической глубины.

Как заставить ИИ говорить правильно?

Хотя грамматика у машин практически безупречна, но для имитации живого зумера придётся её ломать об колено. Стоит отметить, что продвинутые текстовые модели тяготеют к скучному канцеляриту, от которого не так-то просто избавиться с первого раза. Текст, написанный короткими рублеными фразами, приправленный лёгким юношеским скепсисом, снабжённый актуальными ироничными аббревиатурами, выглядит в разы живее. Разумеется, нет смысла просить нейросеть «писать как типичный школьник», иначе тут же всплывут карикатурные словечки из глубоких нулевых. Исконно подростковый сленг меняется каждый месяц, поэтому базовые алгоритмы за ним просто не успевают. А начать стоит с жёсткого ограничения длины предложений и прямого запрета на сложные деепричастные обороты.

Настройка ролевой модели поведения

Лучше задать предельно жёсткие рамки для языковой модели. Запрос должен быть конкретным, лишённым двусмысленностей. Отличным стартом послужит директива:

Напиши короткий пост в Telegram от лица 14-летнего парня. Используй короткие предложения, игнорируй некоторые запятые, вставь пару слов вроде «кринж», «вайб», «имба», но не перебарщивай. Тон: немного уставший, слегка ироничный. Тема: опять отменили контрольную по физике, а я готовился к ней всю ночь напролёт

Кошелёк станет легче, если постоянно заказывать подобный стилизованный копирайтинг у живых, высокооплачиваемых авторов, а обученный ИИ справляется с этой рутиной за три миллисекунды. Да и сам процесс подбора нужных интонаций превращается в увлекательную игру с искусственным интеллектом.

Стоит ли добавлять ошибки намеренно?

Ошибки добавляют шарма. Стоит ли добавлять орфографические ошибки намеренно? Да, но делать это нужно крайне осторожно. Не стоит перегружать абзацы откровенной безграмотностью. Это сильно утомляет. Ведь текст мгновенно превращается в нечитаемую кашу, вызывающую отторжение у аудитории. Нужно отметить, что искушённый читатель довольно быстро распознаёт фальшь, когда каждое второе слово пытается отчаянно кричать о молодости выдуманного автора. Меру соблюдать стоит абсолютно всегда. И всё же, куда эффективнее дать нейросети роль через понятный контекст бытовой ситуации, а не через прямой приказ коверкать слова. Запрос, сформулированный как:

Действуй как ученик девятого класса, который быстро тайпает сообщение на ходу, забывая про заглавные буквы

сработает куда лучше топорных команд.

Избавление от машинной вежливости

Зрелище откровенно удручающее, когда виртуальный бунтарь вдруг начинает извиняться за свои резкие высказывания или добавлять в конце дружелюбные напутствия. Дело в том, что базовые постулаты безопасности заставляют ИИ всегда оставаться услужливым собеседником. Обойти этот барьер довольно просто. В системный промт нужно намертво вшивать прямой запрет на любую вежливость, извинения и морализаторство. Дополняет образ дерзкого юноши команда:

never apologize, do not offer help, be dismissive and slightly arrogant

Конечно, некоторые платформы могут заблокировать такой запрос из-за фильтров токсичности, однако в большинстве случаев это работает безотказно. Ведь именно лёгкая надменность — та самая изюминка подросткового общения, без которой текст кажется плоским.

Эмоциональный спектр на фотографиях

Задача не из лёгких. Эмоции подростков довольно часто гиперболизированы, что визуальные алгоритмы воспринимают как прямой сигнал к созданию откровенных, пугающих гримас. Буквально десятилетие назад, когда исследователи только обучали нейросети распознавать лица на базе тысяч фотографий (в основном студийных), малейшая лёгкая ухмылка интерпретировалась машиной как открытая, зубастая улыбка. Сегодня же мы вполне можем и должны требовать тончайших микровыражений. В ход активно идут такие ювелирные уточнения, как:

subtle smirk, bored expression, eyes looking slightly down away from camera

К первой группе удачных решений относится лёгкая, читаемая усталость на лице, далее следует саркастичный, едва уловимый прищур, ну а последним в списке идёт полное, звенящее отсутствие каких-либо эмоций. Это спасательный круг для тех, кто устал от рекламных, радостных физиономий в ленте.

Особенности работы со Stable Diffusion

Локальные сети дают больше свободы. В чём их главное преимущество перед закрытыми коммерческими платформами? Прежде всего, в возможности использовать специфические LoRA-модели, натренированные энтузиастами на любительских снимках с дешёвых мыльниц. Буквально несколько мегабайт дополнительных весов заставляют базовую модель забыть про идеальный свет и глянцевые журналы. Стоит задуматься о скачивании дополнений вроде «Amateur Photography» или «Eastern European Vibes». Они содержат тот самый кладезь визуального мусора, который так необходим для реализма. Компактное решение – использование Inpainting для точечной замены ровных зубов на слегка кривые, далее следует добавление синяков под глазами, ну а последним в списке идёт наложение эффекта хроматической аберрации. Да и сам процесс контроля над каждым пикселем приносит немалое удовольствие исследователю.

Оптимизация промтов под разные задачи

Нельзя не упомянуть разницу в подходах к созданию контента для различных платформ. Текст для имитации переписки в мессенджере кардинально отличается от длинного поста для личного блога. Точно так же аватарка для профиля требует иного кадрирования, нежели полноростовой снимок в городском пейзаже. Опытные практики часто используют творительный падеж для нанизывания свойств персонажа, чтобы алгоритм не запутался в деталях. Текст, усиленный сленгом, приправленный лёгким нигилизмом, снабжённый хаотичной пунктуацией, бьёт точно в цель. А вот оригинальное название файла с генерацией лучше сохранять, чтобы потом иметь возможность вернуться к удачному сиду и докрутить результат. Махинации с параметрами стилизации помогут найти тот самый хрупкий баланс между безумной фантазией машины и суровым фотореализмом.

Подводные камни стилизации

Иногда смелые эксперименты приводят к совершенно неожиданным, комичным результатам. Излишняя художественность неизбежно съедает суровый реализм. К тому же, популярные аниме-фильтры или затасканные киберпанк-мотивы безжалостно стирают ту самую естественную угловатость, ради которой мы так скрупулёзно, часами подбирали слова в командной строке. Нет никакого смысла переплачивать личным временем на рендеринг невероятно сложных концептов, если базовый, проверенный временем polaroid photo style работает безотказно и стабильно. Вся суть кроется в том, что плёночные шумы и дефекты оптики отлично маскируют артефакты нейросетевой генерации. Ну и, конечно же, это стопроцентно попадает в эстетику современного юного бомонда, который всей душой тяготеет к аналоговому ретро.

Как объединить текст и картинку?

Синхронизация визуального и текстового образа — высший пилотаж. Если на сгенерированной фотографии мы видим уставшего, меланхоличного парня под дождём, то и сопровождающий текст не должен искриться энтузиазмом. Обе стороны медали обязаны дополнять друг друга, создавая цельный, неделимый нарратив. Попробуйте прогнать через текстовую модель описание получившейся фотографии с командой:

Опиши эту картинку так, будто это ты на ней, и ты выкладываешь это фото в свой закрытый канал

ИИ проанализирует визуальные маркеры и выдаст максимально релевантный, контекстный кусок текста. Внести лепту в итоговый результат может и ручная редактура, когда автор сам убирает пару запятых или добавляет многоточия. Бросается в глаза, когда проект стоит на ногах уверенно, без костылей из откровенно искусственных фраз.

Поиск идеальных алгоритмических формул отнимает драгоценные часы, но итоговый результат того безусловно стоит. Погружение в скрытые нюансы машинного мышления позволяет методично разложить по полочкам даже самые сумбурные, хаотичные идеи. Главное — не бояться осознанно добавлять тексту и фотографиям грязи, мелких ошибок и визуальных шероховатостей, ведь именно они делают виртуального, состоящего из пикселей персонажа по-настоящему живым. Удачи в создании поистине дерзких, запоминающихся и аутентичных цифровых героев, которые обязательно завоюют внимание любой аудитории!