Создание детской книги: как рисовать последовательные иллюстрации в Midjourney

Мечта о собственной детской книге — штука заразительная. Стоит лишь раз вообразить яркие развороты с забавным персонажем, который переходит со страницы на страницу, и остановиться уже довольно сложно. Ещё пару лет назад подобная затея требовала либо серьёзных навыков рисования, либо внушительного бюджета на иллюстратора. Но нейросети перевернули правила игры. Midjourney сегодня творит чудеса — генерирует картинки, от которых у взрослых дух захватывает, а дети и вовсе приходят в восторг. Однако между одной красивой картинкой и целой книгой, где герой выглядит одинаково на каждом развороте, лежит пропасть размером с Гранд-Каньон. А потому стоит разобраться, как эту пропасть преодолеть — шаг за шагом, от первого промта до финального разворота.

Почему последовательность иллюстраций — главная головная боль?

Вся суть проблемы в том, что Midjourney изначально не задумывалась как инструмент для серийной иллюстрации. Каждая генерация — отдельная вселенная. Нейросеть не помнит, что рисовала минуту назад, и уж тем более не хранит в памяти цвет шапки вашего зайчика со страницы три. Дело в том, что модель работает с текстовым описанием «здесь и сейчас», без привязки к предыдущим результатам. И вот тут-то всплывают подводные камни: персонаж на одной картинке — рыжий лисёнок с круглыми глазами, а на следующей — совершенно другой зверь с вытянутой мордой и треугольными ушами. Для одиночной иллюстрации это не критично. Но для книги, где чадо следит за приключениями одного героя, такое разночтение — катастрофа.

Нужно отметить, что проблема эта не уникальна именно для Midjourney — любая генеративная модель страдает тем же недугом. Впрочем, именно в Midjourney за последний год появилось больше всего рычагов, позволяющих хоть как-то обуздать эту хаотичность. И разговор о них — отдельная история.

Референсный лист персонажа

Начать нужно с самого фундамента. Прежде чем браться за сюжетные сцены, стоит создать так называемый character reference sheet — набор изображений одного и того же героя в разных ракурсах. Это старая добрая практика из анимационной индустрии, где художники десятилетиями рисуют персонажа спереди, сбоку и сзади, прежде чем приступить к раскадровке. В Midjourney подобный лист генерируется через промт, в котором прямо прописывается запрос на «character sheet» или «character turnaround». К слову, лучше сразу указать белый фон — так нейросеть не станет придумывать лишний антураж и сосредоточится на самом герое.

Промт может выглядеть примерно так: «character turnaround sheet of a small orange fox cub wearing a blue scarf, children’s book illustration style, simple shapes, soft colors, white background, multiple poses». Результат далёк от идеала с первого раза. Ведь нейросеть склонна «фантазировать» — то лапу удлинит, то шарф перекрасит. Поэтому из четырёх вариантов стоит выбрать самый удачный и прогнать через апскейл. А затем — использовать этот конкретный кадр как якорь для всех последующих генераций.

Как удержать облик героя от сцены к сцене?

Тут на помощь приходит параметр —cref (character reference), который появился в Midjourney сравнительно недавно и сразу стал спасательным кругом для всех, кто грезил о серийных иллюстрациях. Механика довольно простая: к промту добавляется ссылка на изображение-образец, и нейросеть старается воспроизвести внешность персонажа в новой сцене. Не стоит забывать и про параметр —cw (character weight), который регулирует, насколько строго модель следует образцу — от нуля до ста. При значении сто нейросеть пытается скопировать даже одежду и мелкие детали, а при нуле ориентируется лишь на общие черты лица.

Звучит идеально? На практике — не совсем. Даже с —cref лисёнок может слегка «мутировать»: чуть изменится толщина хвоста или оттенок шерсти. Тем более что детская иллюстрация тяготеет к упрощённым формам, а нейросети проще удерживать реалистичные лица, нежели мультяшных зверей. И всё же результат с —cref и без него — это небо и земля. Буквально два года назад о таком инструменте можно было только мечтать.

Стилевой якорь и параметр —sref

Консистентность персонажа — половина дела. Вторая половина — единый визуальный стиль. Когда на одном развороте акварельная мягкость, а на следующем — жёсткий вектор с чёткими контурами, книга разваливается на куски. Для решения этой задачи в Midjourney существует —sref (style reference). Принцип схожий: к промту прикрепляется изображение, стиль которого нейросеть берёт за образец. Это может быть одна из ваших же удачных генераций или даже фрагмент работы любимого иллюстратора (разумеется, для референса, а не для копирования).

Довольно часто новички пренебрегают этим параметром и полагаются только на текстовое описание стиля. Мол, написал «watercolor children’s book style» — и хватит. Но нейросеть трактует эти слова каждый раз чуть иначе. А вот конкретная картинка — штука однозначная. К тому же —sref и —cref прекрасно работают в связке, дополняя друг друга. Одна ссылка держит облик героя, другая — атмосферу и технику рисунка. Ну и, конечно же, не стоит перебарщивать с количеством референсов: два-три изображения — потолок, иначе модель начинает «путаться» и выдаёт нечто среднеарифметическое, лишённое всякой изюминки.

Промт-инженерия для детской книги

Скрупулёзная работа. Именно так можно охарактеризовать процесс написания промтов для серии связных иллюстраций. Каждый промт — это не просто описание сцены, а инструкция, в которой зашиты десятки нюансов: стиль, ракурс, освещение, эмоция персонажа, фон, цветовая палитра. Чем больше деталей зафиксировано, тем меньше свободы для «фантазий» нейросети. И тут важен баланс. Слишком короткий промт — и модель додумает всё сама. Слишком длинный — и она начнёт игнорировать часть слов, потому что буквально «захлебнётся» информацией.

На практике хорошо работает принцип «ядро + переменная». Ядро — это неизменная часть промта, которая кочует из сцены в сцену: описание персонажа, стиль, цветовая гамма, тип фона. Переменная — это конкретное действие и локация. Скажем, ядро звучит так: «cute orange fox cub with a blue scarf, soft pastel children’s book illustration, rounded shapes, warm lighting». А переменная меняется: «walking through a snowy forest», «sitting by a campfire under the stars», «hiding behind a large mushroom». Такой подход здорово экономит время и снижает вероятность стилистических «прыжков» между разворотами.

Стоит ли фиксировать seed?

Многие считают, что параметр —seed — волшебная палочка, которая решит все проблемы с консистентностью. На самом деле всё несколько сложнее. Seed фиксирует стартовый «шум», из которого нейросеть начинает генерацию. Если промт остаётся абсолютно тем же — да, результат будет идентичным. Но стоит изменить хотя бы одно слово, и картинка может уплыть в совершенно другую сторону. Для серии иллюстраций, где каждая сцена отличается от предыдущей, seed сам по себе мало что даёт.

Впрочем, совсем отказываться от него не стоит. В сочетании с —cref и —sref фиксированный seed добавляет ещё один слой стабильности. Это как третий якорь у корабля — каждый по отдельности не удержит в шторм, но вместе они работают довольно надёжно. К тому же знание конкретного seed пригодится, если захочется слегка подправить удачную сцену, изменив лишь одну деталь в промте.

Работа с ракурсами и композицией

Детская книга — это не галерея портретов. Герой прыгает, бежит, прячется, удивляется. Камера (условная, конечно) то приближается, то отдаляется, то смотрит сверху вниз. И вот тут Midjourney ведёт себя неоднозначно. Нейросеть отлично справляется с фронтальными ракурсами, но стоит попросить вид сверху или сложный ракурс в три четверти — и персонаж может «поплыть». Особый интерес вызывает работа с крупными планами: морда лисёнка на полстраницы, выражающая испуг или восторг, получается эффектнее всего. А вот полнофигурные динамичные сцены требуют больше итераций.

Нельзя не упомянуть и про соотношение сторон. Для книжного разворота классический формат — горизонтальный (параметр —ar 3:2 или —ar 16:9), а для отдельной страницы подойдёт вертикальный —ar 2:3. Смена формата между генерациями тоже влияет на композицию, и к этому нужно быть готовым. Да и сам макет книги стоит продумать заранее — какие сцены займут целый разворот, какие уместятся на половине страницы рядом с текстом.

Цветовая палитра и настроение

Цвет в детской книге солирует. Ребёнок ещё до чтения текста считывает настроение по картинке — тёплые охристые тона говорят ему о домашнем уюте, холодные синие — о ночном приключении, а насыщенные красные — об опасности или празднике. Поэтому палитру стоит зафиксировать на самом старте. В промте это реализуется через прямое указание цветов: «warm palette of orange, cream and soft green» или «muted pastel tones with accents of deep blue».

Но есть ложка дёгтя. Midjourney — не Photoshop, и точно контролировать цвет до последнего пикселя в ней невозможно. Нейросеть «понимает» цветовые указания скорее как рекомендацию, нежели как строгий приказ. Иногда в сцену просачиваются лишние оттенки, иногда основной цвет выходит чуть темнее или светлее задуманного. Тем более что освещение сцены (дневное, закатное, ночное) неизбежно сдвигает палитру. Здесь на помощь приходит постобработка — но о ней чуть позже.

Постобработка: без неё никуда?

Короткий ответ — нет, без неё никуда. Даже самый тщательный промт не гарантирует, что все двадцать иллюстраций будут выглядеть так, словно их нарисовала одна рука за один присест. Мелкие расхождения неизбежны. И тут в дело вступает добротный графический редактор — Photoshop, Procreate или хотя бы бесплатный Photopea. Львиная доля правок сводится к коррекции цвета: подтянуть насыщенность, привести все иллюстрации к единому балансу белого, убрать паразитные оттенки.

Отдельно стоит упомянуть ретушь мелких деталей. У лисёнка на седьмой странице вдруг появилось шесть пальцев на лапе? Нейросети до сих пор грешат подобными артефактами, и для детской книги это недопустимо — внимательный ребёнок заметит сразу. Проблемные участки можно закрасить вручную или воспользоваться инпейнтингом (например, через встроенный инструмент в Midjourney, отправив варьирование конкретной области). А ещё стоит задуматься о едином текстурном наложении — лёгкий бумажный шум поверх всех иллюстраций визуально «склеивает» серию и придаёт ей аналоговый тактильный характер.

Раскадровка: от текста к визуальной истории

Прежде чем запускать первый промт, стоит разложить по полочкам весь сценарий книги. Сколько страниц, сколько разворотов, где текст, где картинка, где они соседствуют. В индустрии это называется storyboard — раскадровка. Для детской книги объёмом в тридцать две страницы (а это стандарт жанра) обычно хватает двенадцати-шестнадцати полноценных иллюстраций. Остальные страницы — титульная, колофон, форзацы.

На этапе раскадровки определяется ритм визуального повествования. Где нужен общий план — лес, в котором лисёнок заблудился. Где средний — герой встречает нового друга. Где крупный — слеза на щеке или широкая улыбка. Этот ритм крайне важен, потому что одинаковые ракурсы на каждой странице превращают книгу в скучное слайд-шоу. Ребёнок листает быстрее, чем читает, и если визуально ничего не меняется — интерес угасает за пару разворотов. А если каждая страница удивляет новым ракурсом, настроением, масштабом — книга приковывает внимание до последней точки.

Типичные ошибки и как их избежать

Пожалуй, самая распространённая ошибка — попытка сгенерировать все иллюстрации за один вечер, не имея чёткого плана. Это путь к разочарованию. Ведь без референсного листа, без зафиксированного стиля и палитры каждая новая генерация будет жить собственной жизнью. Вторая по частоте проблема — слишком детализированный промт, в котором описано буквально всё: количество деревьев на фоне, форма каждого облака, длина каждой травинки. Midjourney в таких случаях начинает «терять» главное — самого персонажа.

Ещё одна ловушка — зацикленность на одном «идеальном» промте. На самом деле куда продуктивнее генерировать по пять-десять вариантов каждой сцены, выбирать лучший и дорабатывать его через вариации (кнопка V) или частичную перерисовку (инструмент Vary Region). Процесс не быстрый, но кропотливый. И нужно отметить, что именно эта итеративность — многократные прогоны, отбор, правка — и отличает результат любительский от результата, за который не стыдно перед читателем. Да и перед собственным чадом, если книга — подарок.

Форматы и подготовка к печати

Когда все иллюстрации готовы, наступает этап, о котором многие вспоминают слишком поздно. Печать. Midjourney по умолчанию генерирует изображения с разрешением около 1024×1024 пикселей (в зависимости от соотношения сторон). Для экрана этого хватает, а вот для полиграфии — категорически нет. Детская книга формата А4 требует изображения с разрешением не менее 300 dpi, что в пересчёте даёт примерно 3500×2500 пикселей для одного разворота. Поэтому без апскейлинга не обойтись.

Встроенный апскейл Midjourney (режим «Upscale Subtle» или «Upscale Creative») поднимает разрешение в два раза — до 2048×2048. Этого всё ещё маловато. На помощь приходят сторонние сервисы: Topaz Gigapixel AI или бесплатный Upscayl справляются с задачей значительно лучше, увеличивая картинку в четыре раза без заметной потери качества. К слову, цветовой профиль тоже имеет значение — для печати нужен CMYK, а нейросеть работает в RGB. Конвертация иногда «убивает» самые сочные оттенки, и к этому лучше быть готовым заранее, ещё на этапе выбора палитры.

Авторское право: щепетильный вопрос

Нельзя обойти стороной и юридическую сторону. Ситуация с авторскими правами на изображения, сгенерированные нейросетью, до сих пор остаётся туманной. В некоторых юрисдикциях (включая позицию Бюро авторского права США) такие картинки не защищаются копирайтом, потому что у них нет «автора-человека» в традиционном понимании. Однако текст книги, макет, идея — всё это защищено. И если иллюстрации прошли значительную ручную доработку, шансы на регистрацию авторского права возрастают.

Для самиздата через Amazon KDP, Ridero или «Литрес» это, как правило, не проблема — платформы принимают контент, сгенерированный с помощью ИИ, при условии раскрытия этого факта. Но если в планах сотрудничество с крупным издательством, то стоит задуматься серьёзнее. Многие редакции пока относятся к нейросетевым иллюстрациям настороженно. Впрочем, индустрия меняется стремительно, и то, что сегодня вызывает скепсис, завтра вполне может стать нормой.

Практический алгоритм от идеи до макета

Весь процесс укладывается в несколько последовательных этапов, каждый из которых опирается на предыдущий. Первым делом рождается текст — история, которую хочется рассказать. Без готового текста генерировать иллюстрации бессмысленно, потому что непонятно, какие именно сцены нужны. Далее следует раскадровка: текст разбивается на страницы, к каждой странице прописывается краткое описание будущей картинки — что происходит, где, какой ракурс, какое настроение.

После раскадровки наступает время создания референсного листа персонажа (или нескольких, если героев больше одного). Когда облик утверждён, генерируется первая «тестовая» сцена — та, которая задаст эталон стиля. Её —sref и —cref параметры лягут в основу всех последующих генераций. И только после этого начинается серийная работа: сцена за сценой, с отбором лучших вариантов, с правками через Vary Region, с последующей постобработкой в графическом редакторе. Финальный этап — сборка макета в InDesign, Canva или даже в Google Slides (для простых проектов), апскейлинг, конвертация в CMYK и отправка в типографию. Путь не из коротких. Но результат того стоит.

Создание детской книги с помощью Midjourney — это не нажатие одной кнопки, а целый творческий марафон, где терпение и внимание к мелочам внесут куда большую лепту, чем любой самый изощрённый промт. Зато на выходе получается нечто особенное — история, рождённая в вашей голове и воплощённая на бумаге, которая наверняка порадует и маленьких читателей, и их родителей. Удачи в этом увлекательном путешествии от чистого листа к первой напечатанной странице.