Ожидание идеальной картинки от нейросети довольно часто оборачивается горьким разочарованием, когда на экране монитора вместо шедевра возникает пугающая анатомическая нелепица с лишними пальцами. Многие считают, что достаточно просто попросить искусственный интеллект нарисовать котика на фоне заката, но на самом деле за кулисами кроется целая наука общения с машинным алгоритмом. Буквально десятилетие назад генерация изображений была роскошью из области фантастики, однако сейчас это развлечение прочно вошло в повседневность обывателя. И всё же львиная доля пользователей быстро опускает руки, сталкиваясь с глухим непониманием нейронной сети. Но чтобы не ошибиться, нужно просто освоить базовую архитектуру правильного текстового запроса.
С чего начинается выбор?
С определения фундаментальной концепции. Задача не из лёгких. Ведь перед тем как начать вводить слова, стоит чётко визуализировать в голове финальный результат. А начать стоит с главного объекта, который солирует в кадре. К первой группе относится детальное описание самого персонажа или предмета, будь то мрачный уставший рыцарь или изысканная старинная ваза. Далее следует проработать окружение, задающее тон всей сцене. Ну и, наконец, нельзя не упомянуть освещение, творящее настоящие чудеса с восприятием объёма. Дело в том, что алгоритм не умеет читать мысли, поэтому любая недосказанность бьёт по бюджету вашего времени.
Скрупулёзный текстовый запрос — это настоящий спасательный круг. Это же правило касается и мелких деталей, о которых новички благополучно забывают.
Фокусное расстояние
Объектив меняет всё. Потому что именно оптика диктует перспективу. Ещё в тысяча девятьсот тридцатых годах знаменитые репортёры поняли всю важность правильного подбора линз для передачи эмоций. Сегодня же цифровые модели тяготеют к тем же правилам исконно классической фотографии. К слову, стоит избегать скучных фронтальных ракурсов без указания типа съёмки. Выручит упоминание конкретного фокусного расстояния прямо в тексте. Портреты лучше всего получаются при значениях в восемьдесят пять или сто тридцать пять миллиметров. Искажения пропорций лица широкий угол даёт практически всегда, поэтому нет смысла переплачивать усилия на исправление таких артефактов в редакторах. Добротный портретный объектив, вписанный в английский текст, мгновенно преобразит результат.
Как выбрать стиль?
Хочется чего-то действительно особенного? Окунуться в историю искусств всегда полезно. Безусловно, стиль гранж в интерьере или суровый киберпанк на ночных улицах города выглядят впечатляюще. А если ещё вспомнить плёночную фотографию девяностых годов прошлого века, то можно получить совершенно невероятный ностальгический антураж. Зерно на плёнке, лёгкие потёртости, тёплые засветки по краям кадра — всё это придаёт картинке живости. Довольно часто пользователи грезят о картинах в духе Да Винчи (хотя и не всегда понимают его сложную технику). Но стоит только добавить имя известного фотографа или художника, как генерация кардинально меняется. Обе стороны медали здесь заключаются в том, что машина может выдать как шедевр, так и откровенный цифровой плагиат. Поэтому лучше смешивать несколько направлений, создавая самобытный коктейль из эпох и жанров.
Генерация портрета: Подводные камни
Человеческое лицо — сложнейшая визуальная махинация природы, воссоздать которую без явных дефектов довольно сложно. Зрелище удручающее, когда вместо красивых глаз натыкаешься на асимметричные размытые кляксы. Лучше отказаться от расплывчатых формулировок вроде «красивая девушка». Сухая конкретика творит чудеса. В первую очередь стоит отметить точный возраст, специфические особенности кожи, цвет глаз и едва уловимую эмоцию. К тому же, не забудьте указать текстуру кожи, чтобы избежать эффекта пластикового манекена. Скептицизм здесь весьма уместен. Ведь именно он имеет решающее значение при работе со сложной анатомией. Тем более, что машина всегда стремится идеализировать внешность, лишая её естественной привлекательности. Главное — угадать с палитрой макияжа и освещением лица. Вычурный неоновый свет часто конфликтует с естественным румянцем, создавая эффект грязных пятен.
Антураж
Пылинки медленно танцуют в узком луче света, пробивающемся сквозь полузакрытые деревянные жалюзи. Атмосфера создаётся именно так. Буквально шаг за шагом выстраивается сложная студийная сцена. Сначала задаётся общее место действия, затем расставляются невидимые источники света, после чего в кадр помещается фактурный реквизит, покрытый благородной патиной, дополненный глубокими тенями. Разумеется, такой щепетильный подход требует времени на подбор английских синонимов. Однако результат того безусловно стоит. Колоритный интерьерный фон всегда венчает композицию, делая её логически завершённой. И всё же не стоит перегружать задний план лишними предметами. Ведь внимание зрителя неизбежно будет рассеиваться, пытаясь охватить всю наляпистость сгенерированного окружения.
Стоит ли экономить слова?
Обязательно ли писать сочинение на три полноценные страницы? Вовсе нет. С одной стороны, обилие мелких деталей кажется несомненным благом, с другой — чрезмерная длина текста часто приводит к смысловой каше внутри нейросети. Впрочем, некоторые обыватели искренне полагают, что чем длиннее текст, тем лучше, но на самом деле система имеет свой жёсткий предел внимания. Самые важные слова стоит выносить в самое начало, пока алгоритм не потерял нить повествования. Тем более, что вес каждого последующего термина неуклонно снижается по мере удаления от первого слова. Конечно, короткий рубленый текст оставит слишком много пространства для непредсказуемой фантазии машины, однако золотая середина работает безотказно. Внести свою лепту в понимание можно с помощью специальных скобок-усилителей, расставляя смысловые акценты. Да и самим вычислительным мощностям комфортнее работать с чёткой логической структурой.
Примеры промтов: Практика
Теория без практики абсолютно мертва. Разложить по полочкам сложную механику лучше всего на конкретных рабочих фразах. Один из самых популярных видов запросов описывает классический мужской портрет. Выглядит он так:
«портрет пожилого уставшего моряка, стоящего на деревянной палубе корабля во время сильного шторма, освещённый яркой вспышкой молнии, снятый на камеру с объективом пятьдесят миллиметров при открытой диафрагме, высокая детализация морщин».
Этот текст содержит все базовые постулаты успеха. А вот оригинальное направление для следующего эксперимента — уютная французская кофейня дождливым вечером. Запрос формируется следующим образом:
«вид через мокрое стекло на интерьер пустого кафе, тёплый жёлтый свет винтажных ламп накаливания, густой пар над фарфоровой чашкой кофе на дубовом столе, кинематографичная цветокоррекция».
Отдельно стоит упомянуть архитектурные фантазии, которые так любят генерировать цифровые художники:
«Заброшенный готический замок в густом утреннем тумане, окружённый высокими вековыми соснами, мрачная гнетущая атмосфера, холодные синие оттенки, гиперреализм, снято на дрон».
Компактное решение для создания аппетитной еды тоже всегда под рукой:
«Свежеиспечённый румяный круассан на белой керамической тарелке, утренний мягкий солнечный свет из большого окна, падающие крошки застыли в воздухе, макросъёмка, рекламное журнальное качество».
Последним в списке идёт внушительный футуристический пейзаж:
«Неоновый город далёкого будущего под проливным дождём, летающие машины с горящими фарами, неоновые отражения в глубоких лужах, стиль киберпанк, объёмное мягкое освещение».
Каждый из этих текстов легко модифицируется под личные нужды.
Ошибки генерации: Контроль
Что делать с лишними конечностями и кривыми зубами? Жёстко контролировать процесс. И здесь на помощь приходит так называемый негативный запрос, скрытый в настройках интерфейса. Это настоящий кладезь возможностей, куда вписывается всё то, что создатель не желает видеть на финальном экране. Не стоит гнаться только за идеальным позитивным текстом, легкомысленно игнорируя эту защитную часть. Плохая нереалистичная анатомия, размытые пиксельные текстуры, водяные знаки стоковых сайтов, непонятный текст, лишние пальцы, пугающая асимметрия лица — весь этот цифровой мусор должен быть надёжно заблокирован. К тому же, некоторые продвинутые нейросети очень чутко реагируют на слова вроде «уродливый» или «мутация», отправляя их в список запретов. Тем более, отсутствие такого контроля неизбежно приведёт к появлению пугающих артефактов, портящих всю эстетику. Разумеется, с первого раза идеальный баланс не выйдет никогда. Серьёзные ошибки обязательно всплывут. Но со временем процесс дойдёт до полного автоматизма, и кошелёк станет легче разве что от радостных трат на более мощную видеокарту.
Творчество без границ
Машинный разум не имеет собственного воображения, опираясь лишь на огромные базы данных и математические вероятности. И всё же этот холодный инструмент в умелых руках превращается в полноценную кисть цифрового художника. Собирая по крупицам правильные формулировки, жонглируя стилями и оптическими терминами, любой человек способен визуализировать самые смелые мечты. Не скупитесь на изучение истории фотографии, ведь именно там скрыты самые вкусные визуальные приёмы. Пробуйте смешивать несочетаемые вещи, нарушайте академические правила и наслаждайтесь непредсказуемым процессом рождения новой вселенной на экране. Удачи в текстовых экспериментах, пусть каждый новый запрос порадует домочадцев и запомнится надолго великолепным результатом!