Как именно нейросеть Midjourney генерирует изображение: разбор алгоритмов

Ещё каких-то пять лет назад сама мысль о том, что машина способна нарисовать картину по короткому текстовому описанию, казалась обывателю чем-то из области научной фантастики. Художники спокойно работали за планшетами, дизайнеры листали стоковые фотобанки, а слово «промт» не вызывало у людей вообще никаких ассоциаций. И вот — Midjourney ворвалась в эту размеренную реальность, перевернув привычные представления о творчестве и авторстве. Миллионы пользователей ежедневно вводят текстовые запросы и получают изображения, от которых порой захватывает дух. Но мало кто задумывается, какие именно алгоритмические махинации происходят в недрах нейросети за те несколько десятков секунд, пока картинка «проявляется» из цифрового хаоса. А разобраться в этом всё-таки стоит — хотя бы для того, чтобы научиться формулировать запросы грамотнее и получать результат, максимально близкий к задуманному.

Что скрывается за «магией» генерации?

Многие считают, что Midjourney просто «рисует» изображение, как это делал бы человек — штрих за штрихом, слой за слоем. На самом деле всё устроено принципиально иначе. Вся суть в том, что нейросеть не создаёт картинку из пустоты. Она работает с шумом. Да, именно с шумом — случайным набором пикселей, который больше напоминает помехи на экране старого телевизора. И из этого визуального хаоса, шаг за шагом, проступает осмысленное изображение. Процесс чем-то напоминает работу скульптора, который отсекает от каменной глыбы всё лишнее, оставляя только форму. Только вместо резца здесь — математические операции, а вместо мрамора — латентное пространство чисел.

Фундамент, на котором стоит Midjourney, — это архитектура диффузионных моделей. Впрочем, к самой диффузии мы ещё вернёмся. Сначала стоит разобраться с тем, как нейросеть вообще «понимает» текст, который ей скормили.

Как нейросеть понимает текстовый запрос?

Здесь на сцену выходит языковая модель-кодировщик, тяготеющая к архитектуре CLIP (Contrastive Language–Image Pre-training), разработанной в своё время компанией OpenAI. Задача этого компонента — превратить человеческий текст в числовой вектор. Звучит сухо, но за этим скрывается довольно изящный механизм. CLIP был натренирован на колоссальном массиве пар «картинка + подпись к ней», и за время обучения научился выстраивать связи между визуальными образами и словами. Когда пользователь пишет, допустим, «старый маяк на скалистом берегу, закат, масляная живопись», кодировщик не просто распознаёт отдельные слова. Он улавливает контекст, настроение, стилистику. Каждое понятие проецируется в многомерное пространство, где семантически близкие вещи оказываются рядом друг с другом.

Нужно отметить, что именно от качества этой «трансляции» зависит львиная доля итогового результата. Если вектор сформирован неточно или размыто, то и диффузионная модель получит расплывчатое «задание». Отсюда, кстати, растут ноги у знаменитой проблемы: почему одни промты дают потрясающие результаты, а другие — нечто невразумительное. Дело не в капризах нейросети. Дело в том, как кодировщик интерпретировал запрос. И здесь всплывают подводные камни — порядок слов, выбор синонимов, даже знаки препинания могут сместить вектор в совершенно неожиданную сторону.

Диффузия: от шума к смыслу

Сердце всей системы. Диффузионные модели работают по принципу, который на первый взгляд кажется парадоксальным: чтобы научиться создавать изображения, нейросеть сначала учится их разрушать. На этапе тренировки алгоритму показывают миллионы реальных изображений и постепенно добавляют к каждому из них гауссов шум — слой за слоем, итерация за итерацией, пока от исходной картинки не остаётся ничего, кроме статического мусора. А потом модель обучают обратному процессу: восстанавливать изображение из шума. Именно этот обратный путь — от хаоса к порядку — и называют «обратной диффузией».

Сложно ли это для машины? Безусловно. Но математический аппарат, лежащий в основе, отработан до блеска. На каждом шаге обратной диффузии модель предсказывает, какой именно шум нужно «вычесть» из текущего состояния изображения, чтобы оно стало чуть ближе к чему-то осмысленному. Таких шагов может быть от нескольких десятков до нескольких сотен — в зависимости от настроек генерации. Ведь чем больше шагов, тем более детализированным и «вылизанным» получается финальный результат, хотя и время генерации при этом ощутимо возрастает.

Латентное пространство и почему оно так важно

Казалось бы, зачем усложнять? Бери пиксели и работай с ними напрямую. Но тут есть один щепетильный нюанс. Изображение размером, скажем, 1024 на 1024 пикселя — это уже больше трёх миллионов числовых значений (с учётом трёх цветовых каналов). Обрабатывать такой массив на каждом шаге диффузии — задача, которая даже современным серверным GPU даётся с натугой. Вот почему Midjourney, как и Stable Diffusion, работает не с самими пикселями, а с их сжатым представлением — в так называемом латентном пространстве.

За сжатие и разжатие отвечает отдельный добротный компонент — вариационный автоэнкодер (VAE). Он состоит из двух частей: энкодер «сворачивает» полноразмерное изображение в компактный латентный код, а декодер потом «разворачивает» его обратно. Между этими двумя операциями и происходит вся магия диффузии. Работа в латентном пространстве позволяет сократить вычислительные затраты в десятки раз, при этом качество генерации практически не страдает. К слову, именно благодаря этому трюку нейросети стали доступны не только крупным исследовательским лабораториям, но и рядовым пользователям с обычным ноутбуком (хотя для Midjourney вся нагрузка ложится на удалённые серверы).

Роль архитектуры U-Net в процессе очистки от шума

Модель, которая непосредственно «вычищает» шум на каждом шаге, построена на архитектуре U-Net. Название пошло от характерной U-образной формы, которую принимает схема сети, если её нарисовать на бумаге. Сначала входное изображение (точнее, его латентное представление) проходит через серию свёрточных блоков, уменьшаясь в размерах и обрастая всё более абстрактными признаками. Это нисходящая ветвь — своеобразное «погружение» в суть изображения. Затем начинается восходящая ветвь, где размеры постепенно возвращаются к исходным, а абстрактные признаки конвертируются обратно в пространственные детали.

Изюминка U-Net — в «перемычках» между слоями одинакового масштаба нисходящей и восходящей ветвей. Через них высокоуровневая информация (понимание того, что изображено) смешивается с низкоуровневой (понимание того, где именно и с какой детализацией). А ещё внутрь U-Net встроены блоки кросс-внимания, которые на каждом шаге «подглядывают» в текстовый вектор, полученный от CLIP. Это и позволяет нейросети не просто убирать шум, а делать это в направлении, заданном промтом. Без этих блоков кросс-внимания модель генерировала бы случайные красивые картинки, но совершенно не слушалась бы текстовых команд.

Что такое механизм внимания и зачем он нужен?

Механизм внимания (attention) — пожалуй, самый грандиозный прорыв в нейросетях за последнее десятилетие. Его постулаты были заложены ещё в 2017 году командой Google в знаменитой работе «Attention Is All You Need», и с тех пор эта идея проникла буквально во все области глубокого обучения. Вся суть в том, что механизм позволяет каждому элементу входной последовательности «обращать внимание» на все остальные элементы, определяя, насколько они важны друг для друга. В случае Midjourney работают два типа внимания. Первый — самовнимание (self-attention), когда разные участки изображения соотносятся друг с другом. Благодаря этому нейросеть понимает, что тень от дерева должна падать на землю, а не висеть в воздухе.

Второй тип — кросс-внимание (cross-attention), которое уже упоминалось выше. Именно оно связывает текст с картинкой. Когда в промте написано «красная роза на чёрном фоне», механизм кросс-внимания выстраивает карту связей: слово «красная» активирует определённые области латентного пространства, отвечающие за цвет, а «чёрный фон» подавляет активацию в остальных зонах. Этот процесс довольно ресурсоёмкий, но без него генерация управляемых изображений попросту невозможна.

Classifier-free guidance: тонкая настройка «послушности»

Внушительный термин, за которым скрывается на удивление простая идея. Когда Midjourney генерирует изображение, она фактически делает это дважды на каждом шаге: один раз — с учётом текстового промта, второй — без него (как если бы никакого описания не было). Затем результат с промтом «усиливается» по сравнению с результатом без промта. Степень этого усиления и контролирует параметр, который пользователи Midjourney знают как —stylize или CFG scale.

Низкое значение делает изображение более «свободным» и творческим, но менее привязанным к тексту. Высокое — наоборот, заставляет нейросеть скрупулёзно следовать каждому слову промта, хотя картинка при этом может потерять в естественности и стать «перенасыщенной». Найти золотую середину — задача не из лёгких. Ведь именно баланс между творческой свободой модели и точностью выполнения запроса определяет, получится ли изображение живым или пластиковым. Тем более что для разных стилей и жанров оптимальные значения сильно отличаются.

Апскейлинг и доводка до финального качества

Первичная генерация в латентном пространстве даёт изображение сравнительно невысокого разрешения. Но пользователь-то хочет картинку, которую можно поставить на обои рабочего стола, а в идеале — отправить в печать. Здесь подключаются алгоритмы апскейлинга, и Midjourney в последних версиях научилась делать это на впечатляющем уровне. Сначала латентный код проходит через декодер VAE, превращаясь в полноцветное изображение. Затем специализированная нейросеть-апскейлер увеличивает его, достраивая мелкие детали — текстуру кожи, прожилки на листьях, блики на металле.

К слову, начиная с пятой версии (V5) Midjourney стала использовать двухступенчатый подход к апскейлингу. На первом этапе генерируется базовое изображение в разрешении порядка 1024×1024, а на втором — оно увеличивается до 2048×2048 или даже выше с сохранением текстурной когерентности. Это связано с тем, что простое растягивание пикселей неизбежно приводит к «мылу», а нейросетевой апскейлер фактически дорисовывает недостающие детали, опираясь на контекст и своё понимание того, как должны выглядеть те или иные поверхности.

Версия V6 и новые архитектурные решения

Буквально пару лет назад модель V5 считалась вершиной возможностей, но сейчас ей на смену пришла V6, а за ней маячит и V7. Что изменилось? Разработчики Midjourney не раскрывают все карты, однако кое-что известно из публичных заявлений и независимых исследований. Одно из главных нововведений — замена классической U-Net на архитектуру трансформера (DiT — Diffusion Transformer). Это тот же принцип диффузии, но вместо свёрточных слоёв основную работу выполняют блоки трансформерного внимания. Результат бросается в глаза: изображения стали более детализированными, пропорции лиц и рук (извечная ложка дёгтя в ранних версиях) наконец-то приблизились к анатомически корректным.

Кроме того, в V6 серьёзно улучшили работу с текстом внутри изображения. Раньше попытка вписать хотя бы одно слово в картинку превращалась в кладезь типографического абсурда: буквы плавали, менялись местами, обрастали лишними чёрточками. Сейчас же модель довольно уверенно справляется с короткими надписями на латинице, хотя кириллица пока остаётся проблемной зоной. И всё же прогресс колоссальный.

Стоит ли вникать в алгоритмы обычному пользователю?

На первый взгляд — нет. Зачем знать устройство двигателя, если нужно просто доехать из точки А в точку Б? Но с нейросетями дело обстоит сложнее. Понимание того, как именно модель интерпретирует промт, какие слова «весят» больше, а какие теряются на фоне остальных, — всё это напрямую влияет на качество генерации. Знание принципов кросс-внимания, например, объясняет, почему порядок слов в промте имеет значение: первые слова обычно получают больше «веса», чем последние. А понимание работы CFG scale помогает осознать, почему при максимальных настройках картинки часто выглядят гротескно.

Да и сам процесс творчества с Midjourney меняется, когда перестаёшь воспринимать нейросеть как чёрный ящик. Вместо бесконечного перебора промтов наугад появляется системный подход. Стоит задуматься о весовых коэффициентах через двоеточие, о негативных промтах, о сочетании параметров —chaos и —stylize. Каждый из этих инструментов работает с конкретным этапом алгоритма, и знание механики позволяет управлять результатом, а не молиться на удачу.

Распространённые заблуждения о работе Midjourney

Одно из самых живучих — что нейросеть «копирует» фрагменты из своей обучающей выборки и складывает их, как коллаж. На самом деле ничего подобного не происходит. Модель не хранит в себе ни одного конкретного изображения из тренировочного набора. Она выучила статистические закономерности: как выглядят текстуры, формы, соотношения цветов, анатомические пропорции. И генерирует новое изображение «с нуля», опираясь на эти абстрактные знания. Это примерно как художник, который за годы практики впитал тысячи визуальных впечатлений и теперь рисует по памяти, не заглядывая в альбом референсов.

Ещё одно заблуждение — что более длинный промт всегда даёт лучший результат. Впрочем, тут обе стороны медали очевидны. Слишком короткий запрос оставляет нейросети чрезмерную свободу, и результат может уйти далеко от ожиданий. Но и перегруженный деталями промт из двадцати строк скорее запутает модель, чем направит её. Механизм кросс-внимания имеет ограниченную «пропускную способность», и при избытке информации часть слов просто игнорируется. Золотая середина — где-то между лаконичным описанием и умеренно детализированным текстом на 60–75 токенов.

Что ждёт генеративные модели дальше?

Технологии не стоят на месте. Буквально за три года Midjourney прошла путь от размытых сюрреалистичных набросков до фотореалистичных изображений, которые сложно отличить от настоящих снимков. Следующий рубеж — генерация видео и 3D-контента, и первые шаги в этом направлении уже сделаны конкурентами (вспомнить хотя бы Sora от OpenAI). Нельзя не упомянуть и тенденцию к локальным моделям, которые можно запускать на обычном домашнем компьютере с мощной видеокартой. Пока Midjourney работает исключительно через облачные серверы, но рынок толкает разработчиков к большей гибкости.

Разумеется, остаются и нерешённые проблемы. Этические вопросы авторского права, борьба с дипфейками, нюансы коммерческого использования сгенерированных изображений — всё это ещё предстоит разложить по полочкам на законодательном уровне. Но сама технология уже сейчас творит чудеса, а понимание её внутренней механики даёт серьёзное преимущество тем, кто с ней работает. Ну и, конечно же, не стоит забывать главное: нейросеть — это инструмент, и результат определяет тот, кто им управляет. Удачи в освоении этого колоритного мира генеративного искусства — пусть каждый промт приводит к изображению, которое превосходит ожидания.