Тестируем масштабное обновление Ideogram v2: улучшенная работа со сложными шрифтами

Любой дизайнер, хоть раз пытавшийся сгенерировать картинку с читаемым текстом через нейросеть, знает это чувство – смесь надежды и обречённости. Буквы плывут, символы двоятся, а вместо элегантной надписи на постере получается нечто, напоминающее записку пришельца. Ещё год назад ни одна генеративная модель толком не справлялась с кириллицей, да и с латиницей дела обстояли, мягко говоря, неоднозначно. Ideogram с первых версий позиционировал себя как сервис, способный эту боль утолить, и отчасти справлялся – по крайней мере, простые английские слова в кавычках нейросеть воспроизводила довольно сносно. Но стоило усложнить задачу: добавить декоративный шрифт, кириллический текст из пяти и более слов или, не дай бог, лигатуры – и магия рассыпалась. А потому появление Ideogram v2 с заявленным прорывом в типографике стоит разобрать скрупулёзно, на конкретных примерах.

Что изменилось в движке рендеринга?

Главная новость – полностью переработанный модуль текстового слоя. В предыдущей версии нейросеть, по сути, «рисовала» буквы как часть изображения, не отличая «А» от завитка на кованой решётке. Теперь же движок выделяет текстовые области на этапе латентной диффузии отдельно, формируя для них собственную карту внимания. Звучит технически, но на практике разница бросается в глаза моментально. Ведь раньше при генерации фразы из трёх-четырёх слов на декоративном шрифте хотя бы одна буква неизбежно «уплывала»: то зеркально отражалась, то просто исчезала. Сейчас подобные артефакты тоже встречаются, однако частота их снизилась, по моим наблюдениям, процентов на семьдесят. И это уже серьёзная заявка.

Кроме того, разработчики внедрили то, что сами называют «font-aware guidance» – механизм, при котором модель получает сведения о геометрии конкретного шрифта ещё до начала генерации. Раньше промт вроде «elegant serif font» интерпретировался довольно вольно. Нейросеть тяготела к чему-то усреднённому, похожему одновременно на Times New Roman и на Bodoni, но не являющемуся ни тем, ни другим. Теперь же в расширенных настройках можно указать стиль типографики точнее, и результат получается значительно ближе к ожиданиям.

Кириллица – всё ещё подводный камень?

Честный ответ – да, но камень этот заметно обмелел. Я прогнал через обновлённую модель серию из тридцати промтов с русскоязычными надписями разной длины и сложности. Короткие слова из трёх-пяти букв нейросеть отрабатывает почти безупречно. Слово «Кофе» на вывеске кафе, «Мечта» на обложке книги, «Привет» на открытке – всё читается без единой ошибки. Проблемы начинаются, когда длина надписи переваливает за десять-двенадцать символов. Фраза «С днём рождения, дорогая» в одном из пяти случаев теряла мягкий знак или путала «д» с «а». Но ведь буквально полгода назад такой же запрос превращался в нечитаемую кашу в четырёх случаях из пяти. Прогресс внушительный.

Отдельно стоит упомянуть работу с буквой «ё». В прежних версиях точки над ней исчезали практически всегда, и нейросеть рисовала обычную «е». Сейчас ситуация изменилась: если в промте «ё» прописана явно, модель в большинстве генераций её сохраняет. Мелочь? Для обывателя, возможно. Но для дизайнера, готовящего макет вывески или поздравительного баннера, – настоящий спасательный круг.

Сложные декоративные шрифты: готика, каллиграфия, граффити

Тут начинается самое интересное. Ведь именно со сложной типографикой у генеративных моделей традиционно складывались наиболее мучительные отношения. Готические шрифты с их вычурными засечками, каллиграфические росчерки с тонкими линиями, граффити-стиль с перекрывающимися элементами – всё это ещё недавно вызывало у нейросетей что-то вроде паники.

Я начал тестирование с готики. Промт звучал так: «Medieval tavern sign, dark wood, carved gothic lettering saying DRAGON’S LAIR, warm candlelight». В версии 1.5 результат выглядел декоративно, но текст разобрать удавалось только при большом желании и хорошем воображении. Буква «G» сливалась с «O», апостроф исчезал без следа, а «LAIR» иногда превращалось в «LIAR» – ирония, конечно, изысканная, но заказчику не объяснишь. В v2 из пяти генераций три оказались безупречными. Буквы сохранили готический антураж, засечки остались на месте, и даже апостроф уцелел. Две оставшиеся генерации содержали лишь минимальные огрехи – чуть смазанную серифу на «D» да слегка неровный межбуквенный интервал.

С каллиграфией дело обстоит сложнее. Дело в том, что каллиграфический шрифт по природе своей содержит массу тонких штрихов, пересечений и лигатур. Нейросети тяжело отличить декоративный элемент от самостоятельной буквы. Промт с курсивной надписью «With Love» на свадебном приглашении дал три чистые генерации из пяти, одну с перекрытием букв «t» и «h» и одну совсем уж неудачную – «Wilh Love». Но ведь раньше добиться хоть одного читабельного результата удавалось с трудом. Так что сдвиг ощутимый.

А вот граффити-стиль приковывает внимание больше всего. Перекрывающиеся буквы, обводки, тени, 3D-эффекты – кладезь сложностей для любого рендерера. Промт: «Graffiti wall in Brooklyn style, neon green and pink paint, text says FREEDOM». Из пяти попыток четыре дали абсолютно читаемый результат, причём стилизация под уличное граффити выглядела впечатляюще. Одна генерация подменила «E» на «F» – забавно, но не критично.

Стоит ли доверять нейросети финальный макет?

Нет. И в ближайшее время – тоже нет. Это нужно понимать трезво, без иллюзий. Ideogram v2 – великолепный инструмент для создания концептов, мудбордов и визуальных набросков, где текст играет роль декоративного элемента. Для социальных сетей, блогов, презентаций – вполне. Но если речь идёт о макете, который пойдёт в печать на тираже в пять тысяч экземпляров, полагаться на нейросетевой текст целиком всё ещё рискованно. Довольно часто в процессе генерации всплывают микроартефакты, незаметные на маленьком превью, но очевидные при масштабировании: слегка нарушенный кернинг, неравномерная толщина штриха, чуть смещённая базовая линия. Для профессионала это – щепетильный момент.

Впрочем, есть обходной путь. Многие дизайнеры уже сейчас используют Ideogram v2 как генератор фонового изображения с «заглушкой» текста, а потом накладывают реальный шрифт в Figma или Illustrator. Этот подход творит чудеса: картинка получается живой и атмосферной, а типографика – безупречной. Ну и, конечно же, не стоит забывать про функцию inpainting – если одна буква из всей надписи вышла кривой, можно перегенерировать только этот фрагмент, не трогая остальное изображение. В v2 inpainting стал заметно точнее.

Многострочный текст и компоновка

Ещё одна болевая точка прежних версий – многострочные надписи. Стоило попросить нейросеть разместить текст в две-три строки, как начинался хаос: строки наезжали друг на друга, размер букв скакал от строки к строке, а иногда текст и вовсе «убегал» за пределы изображения. В обновлённой модели ситуация ощутимо улучшилась. Промт с трёхстрочной цитатой на фоне горного пейзажа («Life is short / Art is long / Opportunity fleeting») в четырёх из пяти попыток выдал аккуратно скомпонованную надпись с ровными межстрочными интервалами. Не идеально ровными – лёгкая рукописная «небрежность» присутствовала, но она скорее добавляла шарма, чем раздражала.

К слову, разработчики добавили возможность указывать примерное расположение текста в промте через подсказки вроде «text centered at the top», «text in the lower third». Работает это не всегда буквально, но общее направление модель улавливает. Кроме того, появилась экспериментальная фича с контролем размера шрифта относительно всего изображения. Пока что она доступна только в API, а не в веб-интерфейсе, но тестировщики уже отмечают положительную динамику.

Сравнение с конкурентами: Midjourney, DALL-E 3, Flux

Midjourney по-прежнему генерирует самые «красивые» изображения с точки зрения общей эстетики, но текст для этой модели – настоящая ложка дёгтя. Даже в шестой версии надписи длиннее двух слов превращаются в декоративную абракадабру. DALL-E 3 справляется с текстом лучше Midjourney, однако до уровня Ideogram v2 ему далеко, особенно когда речь заходит о нестандартных шрифтах и кириллице. Flux (от Black Forest Labs) показывает довольно приличные результаты с латиницей, но кириллическую типографику воспроизводит из рук вон плохо.

На самом деле, именно в работе с текстом Ideogram нашёл свою изюминку – ту нишу, в которой ему пока нет равных. И обновление v2 эту позицию только укрепляет. Конечно, конкуренты не стоят на месте: Google с Imagen 3 тоже движется в сторону улучшения типографики, а Adobe Firefly интегрирует реальные шрифтовые библиотеки. Но здесь и сейчас, на момент написания этого текста, Ideogram v2 – лидер именно в генерации изображений с осмысленным текстовым контентом.

Скорость генерации и тарифы

Буквально пару лет назад генерация одного изображения занимала минуту-полторы. Сейчас v2 выдаёт результат за восемь-двенадцать секунд на стандартном плане. Неплохо. Бесплатный тариф по-прежнему позволяет генерировать около двадцати пяти изображений в день (с водяным знаком), а подписка стоимостью от семи долларов в месяц снимает ограничения и открывает доступ к приоритетной очереди. Не сильно бьёт по кошельку, особенно если сравнивать со стоимостью часа работы живого леттерщика. Тем более что для коммерческого использования подписка практически обязательна – без неё лицензионные условия запрещают продавать сгенерированные изображения.

Практические советы для тех, кто хочет выжать максимум

Первое, о чём стоит задуматься, – это формулировка промта. Нейросеть лучше воспроизводит текст, если он заключён в кавычки внутри промта и отделён от описания стиля. То есть вместо «красивая вывеска с надписью Добро пожаловать» лучше написать: «vintage wooden shop sign, warm lighting, text says «Добро пожаловать»». Следующий важный нюанс – длина надписи. Не стоит перебарщивать: оптимальный результат достигается при длине текста до пятнадцати-двадцати символов. Для более длинных фраз разумнее разбить текст на несколько генераций или использовать inpainting.

Ещё один добротный приём – генерация нескольких вариантов с последующим выбором лучшего. Модель стохастична по своей природе, и из пяти генераций с одним и тем же промтом результаты будут разными. Иногда первый же вариант идеален, а иногда приходится прогнать десяток попыток. Терпение – вот что отделяет посредственный результат от грандиозного. Да и сам процесс перебора занимает от силы пару минут, ведь скорость генерации, как уже говорилось, вполне комфортная.

Ideogram v2 – не волшебная палочка, а скорее мощный инструмент в руках человека, который понимает его сильные стороны и ограничения. Нейросеть не заменит скрупулёзную работу типографа, но сэкономит десятки часов на этапе концептуализации, превратив грубые идеи в визуально убедительные наброски с читаемым текстом. Удачи в экспериментах – и не стоит бояться прогонять один и тот же промт по нескольку раз, ведь именно в итерациях рождаются лучшие результаты.