Ещё пару лет назад попытка заставить нейросеть сгенерировать членораздельный текст на картинке напоминала лотерею, где главным призом становился набор инопланетных иероглифов вместо желанного логотипа или заголовка. Пользователи часами бились над запросами, получая в ответ лишь красивые, но абсолютно бессмысленные завитушки, отдалённо напоминающие буквы. Казалось, что искусственный интеллект прекрасно понимает, как выглядит закат на Марсе, но совершенно не способен выучить алфавит. Однако технологии шагнули далеко вперед, алгоритмы «поумнели», и теперь, чтобы получить идеальную надпись, интегрированную в изображение, нужно лишь правильно подобрать слова и знать несколько хитростей.
Сложно ли добиться результата?
В представлении многих, генерация текста — это всё ещё тёмный лес. Отчасти это правда, ведь разные модели реагируют на команды по-разному. Если DALL-E 3 схватывает задачу на лету и выдает практически идеальную орфографию, то Midjourney (даже в шестой версии) всё ещё может показывать характер. Значит ли это, что от использования последней стоит отказаться? Вовсе нет. Просто подход к ней нужен более деликатный. Ведь именно Midjourney выдает тот самый фотореализм и художественную глубину, за которую её так любят дизайнеры. А вот со Stable Diffusion дела обстоят чуть сложнее, там без дополнительных модулей вроде ControlNet зачастую не обойтись. Но если вы хотите получить результат здесь и сейчас, используя лишь текстовое описание, то сосредоточиться стоит на грамотном составлении промта.
Анатомия правильного запроса
Главное правило, которое стоит усвоить сразу, касается синтаксиса. Нейросеть должна чётко понимать, где заканчивается описание сцены и начинается сам текст. Для этого используется довольно простой, но эффективный приём — кавычки. Слова, которые должны появиться на картинке, обязательно нужно заключать в двойные кавычки. Казалось бы, мелочь, но именно она играет решающую роль. Кроме того, имеет значение и глагол, который вы используете. Слова «says» (говорит/гласит), «printed with» (напечатано), «inscription» (надпись) или «labeled» (помечено) работают лучше всего.
Начать формирование запроса стоит с определения объекта. Это может быть неоновая вывеска, этикетка на бутылке, принт на футболке или даже надпись на песке. Затем следует указание самого текста в кавычках. А завершает композицию описание шрифта и окружения. Структура выглядит примерно так: Тип объекта + глагол + “ТЕКСТ” + описание стиля шрифта + описание фона. Соблюдение этой последовательности снимает львиную долю проблем с пониманием.
Шрифты и стилистика
Выбор шрифта — это отдельная, довольно обширная тема, в которую стоит окунуться глубже. Ведь одно и то же слово, написанное готическим шрифтом и весёлым «пузырчатым» леттерингом, несёт совершенно разный эмоциональный посыл. Если вам нужно что-то строгое и современное, смело используйте в промте слова sans-serif font (шрифт без засечек), minimalist typography (минималистичная типографика) или bold modern letters (жирные современные буквы). Это надёжный современный вариант для логотипов IT-компаний или стартапов.
Для создания более традиционного, «книжного» образа на помощь придут serif font (шрифт с засечками), elegant calligraphy (элегантная каллиграфия) или vintage script (винтажный рукописный шрифт). Эти определения творят чудеса при создании пригласительных на свадьбу или обложек для исторических романов. А если же хочется добавить в работу бунтарского духа, стоит поэкспериментировать с запросами вроде graffiti style (стиль граффити), grunge texture (текстура гранж) или distressed font (потёртый шрифт).
Примеры промтов: Неон и киберпанк
Особый интерес у цифровых художников вызывает эстетика ночного города. Светящиеся вывески, отражения в мокром асфальте, атмосфера будущего — всё это выглядит впечатляюще. Чтобы получить качественную картинку в этом стиле, нужно сделать акцент на свечении и цвете.
Попробуйте использовать такой вариант для создания атмосферной вывески бара:
cyberpunk street scene, rainy night, glowing neon sign aimed at the viewer saying “OPEN 24/7”, cyan and magenta colors, futuristic city background, highly detailed
Здесь мы видим чёткое указание текста и контекста.
Если же хочется чего-то более камерного, например, таблички в интерьере, подойдёт следующий запрос:
close-up shot of a brick wall with a bright neon sign spelling “DREAM”, pink glowing light, electric cables, realistic texture, cinematic lighting
Обратите внимание, как уточнение про электрические кабели и кирпичную стену добавляет реализма (антураж здесь играет не последнюю роль).
Примеры промтов: Элегантность и минимализм
Иногда меньше — значит лучше. В мире дизайна этот постулат работает безотказно. Для создания стильных логотипов или упаковки не стоит перегружать изображение деталями. Белый фон, чёткие линии и хорошая типографика — вот залог успеха.
Для разработки логотипа кофейни можно использовать такой промт:
minimalist logo design on white paper, text “AROMA” written in elegant black serif font, coffee bean icon above text, clean lines, professional vector style
Результат, как правило, получается добротным и готовым к дальнейшей доработке в векторе.
А вот пример для дизайна упаковки натуральной косметики:
eco-friendly packaging mockup, bottle made of green glass, label with text “PURE NATURE”, botanical illustrations around text, soft pastel colors, handwritten font style, studio lighting
Нейросеть в этом случае отлично понимает, что текст должен быть вписан в дизайн этикетки, а не просто висеть в воздухе.
Вредно ли перегружать запрос?
Многие новички грешат тем, что пытаются впихнуть в один промт «Войну и мир». Они описывают каждый завиток, цвет каждого пикселя и настроение каждого прохожего на заднем плане. Помогает ли это? Чаще всего — только вредит. Нейросети (особенно DALL-E 3) довольно умны, но у них есть предел «контекстного окна» внимания. Слишком длинный запрос может сбить алгоритм с толку, и он просто проигнорирует самое важное — надпись. Поэтому придерживаться стоит принципа золотой середины: давайте чёткие инструкции по тексту и стилю, но оставляйте пространство для «творчества» самой машины в деталях фона.
3D-текст и объём
Плоские надписи — это классика, но иногда проект требует объёма. И тут нейросети раскрывают свой потенциал на полную катушку. Создать текст из воздушных шаров, золота, воды или даже облаков — задача не из лёгких для 3D-моделлера, но для ИИ это дело пары минут.
Допустим, нам нужен праздничный баннер. Вводим:
3D rendered text “SALE” made of glossy golden balloons, floating in the air, confetti background, bright studio lighting, 4k resolution
Ключевое словосочетание здесь — made of (сделанный из). Оно позволяет трансформировать буквы в любой материал.
Ещё один интересный вариант — текст, высеченный в камне или дереве. Это придает изображению монументальность. Попробуйте такой промт:
ancient stone tablet covered in moss, text “LEGEND” carved into stone, realistic texture, cinematic lighting, shallow depth of field
Эффект получается довольно убедительным, словно кадр из приключенческого фильма.
Примеры промтов: Винтаж и ретро
Ностальгия по прошлым эпохам — тренд, который не сдаёт позиций. Стилистика 50-х, 80-х или викторианской эпохи требует особого подхода к лексике.
Для создания постера в стиле американских 50-х пригодится такой запрос:
vintage diner sign in the desert, text “BURGERS”, 1950s retro style, chrome details, red and white color palette, sunny day, route 66 atmosphere
Здесь слова-маркеры retro style и chrome details задают тон всему изображению.
А если нужно что-то в духе старой газетной рекламы, можно попробовать:
old newspaper advertisement style, black and white, text “DAILY NEWS” in bold vintage typography, paper texture, grunge effect
Такая картинка отлично подойдет для стилизации блога или исторической статьи.
Цветовые решения и контраст
Как выбрать цвет? Главное — угадать с палитрой и контрастом. Нейросеть может нарисовать потрясающе красивые буквы, но если они будут сливаться с фоном, прочитать их будет невозможно. Поэтому в промте всегда стоит указывать контрастные цвета. Например: white text on black background (белый текст на чёрном фоне) или gold letters on dark blue velvet (золотые буквы на тёмно-синем бархате).
Не стоит забывать и про цветовую гармонию. Если вы делаете что-то в пастельных тонах, избегайте кислотных цветов в шрифте, если только это не является специальным художественным приёмом. Уточнение harmonious color palette (гармоничная цветовая палитра) иногда творит чудеса, заставляя ИИ подбирать оттенки, которые идеально сочетаются друг с другом.
Работа с ошибками и “артефактами”
Даже самый идеальный промт не гарантирует стопроцентного результата с первой попытки. Бывает, что нейросеть пропускает букву, дублирует ее или вдруг решает написать слово на выдуманном языке. Расстраиваться тут не стоит. Это нормальный рабочий процесс. В таких случаях на помощь приходит функция Inpaint (дорисовка/исправление части изображения), которая есть во многих современных генераторах. Вы просто выделяете область с ошибкой и просите ИИ переписать только этот фрагмент.
Кстати, довольно часто проблемы возникают с длинными фразами. Чем больше слов вы пытаетесь уместить на картинке, тем выше шанс, что «искусственный разум» запутается. Поэтому лучше разбивать задачу: генерировать основу с коротким заголовком, а длинный подзаголовок добавлять уже в обычном графическом редакторе. Это сэкономит вам кучу времени и нервов.
Еда и типографика
Отдельное направление, которое выглядит очень аппетитно — это фуд-типографика. Представьте слово, выложенное из овощей, муки или кофейных зёрен. Сделать это в фотошопе — труд кропотливый, а промт пишется за минуту.
Пример для пекарни:
top view of a wooden table, text “FLOUR” written with white flour powder, bakery atmosphere, rustic style, croissants nearby, hyperrealistic
Важно указать ракурс top view (вид сверху), чтобы надпись читалась без искажений.
Или вариант для сладкоежек:
text “SWEET” made of melting chocolate and colorful candies, macro shot, glossy texture, delicious look
Такие изображения мгновенно приковывают внимание и вызывают желание попробовать продукт.
Как выбрать стиль иллюстрации?
Не всегда нам нужен фотореализм. Порой задача требует рисованного стиля, вектора или даже акварели. И тут в промт нужно вносить соответствующие правки.
Для создания логотипа в стиле киберспортивной команды подойдёт:
vector logo mascot style, angry tiger holding a sign with text “WINNER”, bold colors, thick outlines, flat design
Словосочетание flat design (плоский дизайн) даёт понять, что нам не нужны лишние тени и объемы.
А для детской книги отлично сработает акварель:
watercolor illustration suitable for children book, cute bunny holding a balloon with text “HAPPY”, soft pastel colors, artistic paint splashes, white background
Результат получается нежным и воздушным, с той самой «рукотворной» изюминкой.
Особенности Midjourney v6
С выходом шестой версии Midjourney ситуация с текстом кардинально изменилась в лучшую сторону. Теперь не обязательно «танцевать с бубном», чтобы получить ровные буквы. Однако есть нюанс: модель лучше работает с текстом, если использовать параметр –raw или снижать значение стилизации (–stylize). Дело в том, что высокая стилизация заставляет нейросеть добавлять слишком много декоративных элементов, которые могут искажать формы букв.
Простой и эффективный промт для v6 может выглядеть так:
a poster with the text “FUTURE IS NOW” written in bold futuristic font, abstract geometric shapes background, vibrant colors –v 6.0 –style raw
Параметр –style raw заставляет алгоритм точнее следовать запросу, игнорируя часть своих «художественных фантазий».
Советы по композиции
Расположение текста на холсте — еще один камень преткновения. Нейросети любят помещать объект в центр. Но что делать, если вам нужно место под текст сбоку или сверху? Тут на помощь приходят слова negative space (негативное пространство) или copy space.
Попробуйте такой вариант:
minimalist landscape, mountains in the bottom, vast blue sky with ample negative space in the upper part containing text “FREEDOM”, wide shot
Такой подход даёт понять, что небо нужно оставить чистым именно для надписи. Это спасательный круг для дизайнеров, которым нужно потом верстать макеты с дополнительной инфографикой.
Также стоит упомянуть о правиле третей. Хотя напрямую объяснить это машине сложно, можно использовать описательные конструкции: text “HELLO” placed in the bottom right corner (текст, помещённый в правом нижнем углу). Конечно, ИИ не всегда слушается беспрекословно, но шансы на успех это повышает значительно.
Текстуры и материалы
Мы уже говорили про неон и камень, но спектр материалов этим не ограничивается. Текст из воды, огня, дыма или даже меха — всё это возможно. Ключ к успеху здесь — детальное описание взаимодействия света и материала.
Для «огненной» надписи подойдёт:
text “HOT” made of burning fire flames, dark background, sparks flying around, cinematic lighting, realistic fire texture
А вот «пушистый» текст потребует других слов:
text “SOFT” made of pink fluffy fur, soft lighting, cozy atmosphere, realistic fur texture
Нюанс в том, чтобы задать правильное освещение, которое подчеркнёт фактуру материала. Для меха нужен мягкий свет, а для огня — контрастный, в темноте.
Подводные камни и ограничения
Нельзя не упомянуть и о том, что у текущих технологий есть свои пределы. Например, кириллица всё ещё остаётся слабым местом большинства западных моделей. DALL-E 3 пытается писать по-русски, и иногда у него даже получается, но чаще всего результат выглядит как набор странных символов, отдалённо напоминающих буквы нашего алфавита. Поэтому, если вам нужна надпись на русском, самый надёжный способ — сгенерировать чистый фон или картинку с латинской «рыбой», а потом поменять текст в фоторедакторе.
Также стоит быть осторожным с очень мелким текстом. Если вы попросите сгенерировать газетную страницу с читаемым текстом мелким шрифтом, скорее всего, получите «кашу». Нейросети отлично справляются с заголовками и крупными логотипами, но массивы мелкого текста для них пока — непосильная задача.
Эксперименты — двигатель прогресса
В конечном счёте, создание промтов — это творческий процесс. Не бойтесь смешивать стили. Что будет, если объединить киберпанк и рококо? Или сделать вывеску мясной лавки в стиле «My Little Pony»? Результаты могут быть непредсказуемыми, но часто именно в таких смелых экспериментах рождаются шедевры.
Попробуйте взять готовый промт из этой статьи и заменить в нем всего одно слово. Например, вместо «неон» напишите «лёд». Вместо «город» — «джунгли». Наблюдайте, как меняется картинка, как алгоритм интерпретирует новые вводные. Ведь именно практика позволяет нащупать ту самую нить управления искусственным интеллектом, превращая его из хаотичного генератора случайных пикселей в послушный инструмент художника.
Удачи в творческих поисках, и пусть каждая сгенерированная буква стоит на своём месте, радуя глаз идеальной геометрией!