Как компания Bytedance обучила нейросеть Seedream v 4.5

Генерация изображений по текстовому запросу ещё пару лет назад казалась занятием для узкого круга исследователей, а сегодня за внимание пользователей сражаются десятки моделей — от Midjourney и DALL-E до Stable Diffusion и Flux. Но в этой, казалось бы, тесной нише неожиданно громко заявил о себе китайский гигант ByteDance, больше известный миру как создатель TikTok. Компания, чья львиная доля доходов приходилась на короткие видео и рекомендательные алгоритмы, внезапно выкатила генеративную модель Seedream 4.5, которая по ряду бенчмарков потеснила признанных фаворитов. А чтобы понять, как именно удалось добиться такого результата, стоит разобрать весь путь — от архитектуры до тонкостей обучения.

Что за модель и почему она приковывает внимание?

Seedream 4.5 — это text-to-image генератор нового поколения, разработанный исследовательским подразделением ByteDance. Не стоит путать её с ранними итерациями: между третьей и четвёртой версиями разрыв оказался куда серьёзнее, чем между первыми тремя вместе взятыми. Дело в том, что инженеры радикально пересмотрели подход к самой архитектуре, отказавшись от ряда постулатов, которых придерживались конкуренты. Модель тяготеет к так называемой DiT-архитектуре (Diffusion Transformer), где диффузионный процесс управляется не классическим U-Net, а трансформером. Это довольно смелый шаг. Ведь трансформеры в генерации изображений долгое время считались избыточными, а их вычислительная прожорливость отпугивала даже крупные лаборатории. Но ByteDance, располагая внушительным парком GPU-кластеров, решила рискнуть — и не прогадала.

Архитектурный фундамент: DiT вместо U-Net

Буквально пару лет назад подавляющее большинство диффузионных моделей строилось на U-Net — свёрточной сети с характерной формой «песочных часов». И работало это вполне сносно. Однако у U-Net есть подводные камни: архитектура плохо масштабируется, а при увеличении разрешения изображения качество текстурных деталей растёт нелинейно. ByteDance пошла другим путём, взяв за основу трансформер, адаптированный под латентное пространство диффузии. Вся суть в том, что изображение сначала кодируется вариационным автоэнкодером (VAE) в компактное латентное представление, а уже затем трансформер, разбивая это представление на патчи, работает с ними как с токенами — почти так же, как языковые модели работают с текстом. К слову, именно этот подход позволил масштабировать модель до нескольких миллиардов параметров без катастрофической потери когерентности изображения.

Отдельно стоит упомянуть модифицированный VAE, который в Seedream 4.5 натренирован отдельным пайплайном. В отличие от стандартных решений, где автоэнкодер зачастую берётся «из коробки» (например, от Stable Diffusion), ByteDance обучала свой VAE с нуля, добиваясь минимального уровня артефактов при реконструкции. Потому что проверено: чем точнее латентное пространство отражает визуальные нюансы, тем чище получается итоговая картинка. Особенно это бросается в глаза при генерации текста внутри изображений — задача, на которой спотыкались даже топовые модели.

Как собирали обучающий датасет?

Задача не из лёгких. Ведь качество генеративной модели на восемьдесят процентов определяется качеством данных, на которых она обучена. ByteDance подошла к сбору датасета с почти параноидальной скрупулёзностью. Первый этап — автоматическая фильтрация: из колоссального массива изображений (речь идёт о сотнях миллионов пар «картинка — подпись») алгоритмы отсеивали дубликаты, некачественные фотографии, изображения с водяными знаками и контент, нарушающий этические нормы. Второй этап — рекаптионинг, то есть перегенерация текстовых описаний. Оригинальные alt-тексты из интернета, как правило, бесполезны: они либо слишком короткие, либо не описывают и половины того, что на картинке. Поэтому ByteDance запустила собственную мультимодальную модель, которая генерировала развёрнутые, детализированные описания каждого изображения.

И вот тут кроется изюминка. Компания не ограничилась простым описанием в духе «кот на подоконнике». Новые подписи включали информацию о стилистике, освещении, ракурсе, цветовой палитре и даже эмоциональном настроении кадра. Такой добротный подход к аннотации позволил модели на этапе обучения «впитать» гораздо более тонкую связь между текстом и визуалом. Да и само разнообразие жанров — от фотореализма до аниме-стилистики — было подобрано с расчётом на то, чтобы Seedream одинаково уверенно чувствовала себя в любом жанре.

Многоступенчатое обучение: от грубого к тонкому

Многие считают, что нейросеть просто «скармливают» данные — и она учится. Но на самом деле обучение Seedream 4.5 растянулось на несколько отчётливых фаз, каждая со своей логикой. Первая фаза — претрейн на низком разрешении (порядка 256×256 пикселей). На этом этапе модель осваивала базовые закономерности: формы, цвета, простейшие объекты. Датасет здесь использовался максимально широкий, фильтрация минимальная — важен был объём. Вторая фаза — обучение на среднем разрешении (512×512) с ужесточённым отбором изображений. Здесь уже отсеивались картинки с низкой эстетической оценкой, размытые и плохо скомпонованные.

Третья фаза оказалась самой щепетильной. Модель дотренировывали на высоком разрешении (1024×1024 и выше) с использованием только отборного датасета — тех самых изображений, которые прошли многоуровневую фильтрацию и были снабжены подробнейшими подписями. Именно на этом этапе Seedream набирала ту самую «фотореалистичность», которая так приковывает внимание при первом взгляде на результаты. К тому же на финальной стадии применялась прогрессивная стратегия увеличения разрешения — модель буквально «наращивала» детализацию слой за слоем, подобно художнику, который сначала набрасывает композицию, а потом прорабатывает мелочи.

Стоит ли доверять бенчмаркам?

Разумеется, ByteDance не была бы ByteDance, если бы не подкрепила релиз внушительной батареей тестов. Seedream 4.5 оценивали по GenEval (проверка точности следования промпту), по T2I-CompBench (композиционная сложность) и по DPG-Bench (детальность проработки сцены). По большинству метрик модель обошла Midjourney v6, DALL-E 3 и даже Stable Diffusion 3 Ultra. Впрочем, тут есть нюанс. Бенчмарки — это всегда лишь одна сторона медали. Живое впечатление пользователя зависит от множества субъективных факторов: «натуральности» кожи на портретах, правильности анатомии рук (да, пресловутые шесть пальцев всё ещё всплывают у конкурентов) и способности модели понимать сложные пространственные отношения. И в этих аспектах Seedream тоже показала себя довольно уверенно.

Нельзя не упомянуть отдельный бенчмарк по генерации текста на изображениях. Это та область, где традиционно проваливались почти все модели: буквы плыли, слова искажались, а кириллица превращалась в нечитаемую кашу. ByteDance решила эту задачу через специальный модуль рендеринга текста, интегрированный в пайплайн. Результат — модель довольно точно воспроизводит надписи на латинице и (что удивительно) сносно справляется с иероглифами, хотя с кириллицей пока не всё гладко.

Роль RLHF и «человеческой обратной связи»

Сухой претрейн — это ещё полдела. ByteDance активно применяла RLHF (Reinforcement Learning from Human Feedback), привлекая живых оценщиков для ранжирования сгенерированных изображений. Работало это так: модель получала один и тот же промпт и генерировала несколько вариантов, а команда асессоров оценивала каждый по нескольким критериям — от точности следования запросу до общей эстетики. На основе этих оценок обучалась reward-модель, которая затем направляла основную нейросеть в сторону «более человечных» результатов. Процесс кропотливый и бьющий по бюджету. Тем более что для каждого стиля — фотореализм, цифровая живопись, 3D-рендер — приходилось собирать отдельный пул оценок.

А ещё ByteDance экспериментировала с DPO (Direct Preference Optimization) — методом, который позволяет обойтись без отдельной reward-модели, напрямую обучая генератор на парах «лучше / хуже». Этот подход оказался дешевле и быстрее, хотя и не полностью заменил классический RLHF. Комбинация двух методов — вот что в итоге позволило Seedream 4.5 добиться того самого баланса между художественной выразительностью и точностью следования промпту, которого так не хватает многим конкурентам.

Инфраструктура: на чём всё держится?

Без вычислительной мощности ни одна грандиозная идея не стоит на ногах. ByteDance тренировала Seedream 4.5 на кластерах из тысяч GPU (по некоторым оценкам, задействовано было более десяти тысяч ускорителей NVIDIA A100 и H100). Для координации такого количества устройств компания разработала собственный фреймворк распределённого обучения, оптимизированный под диффузионные модели. Дело в том, что стандартные инструменты вроде DeepSpeed или FSDP не всегда подходят для специфического пайплайна «VAE + трансформер + шедулер шума», и ByteDance пришлось допиливать инфраструктуру вручную. Серьёзное вложение — и по времени, и по деньгам. Но результат того стоил.

Что насчёт безопасности и этики?

Нельзя обойти и эту тему. ByteDance встроила в Seedream многоуровневую систему фильтрации контента. Первый барьер срабатывает ещё на уровне текстового запроса — модель отклоняет промпты, содержащие запросы на генерацию насилия, откровенного контента и фейковых изображений реальных людей. Второй барьер — постгенерационный классификатор, который анализирует уже готовое изображение и блокирует его, если находит нарушения. Конечно, обе стороны медали тут очевидны: с одной стороны, такие фильтры необходимы, с другой — они нередко «зацензуривают» вполне невинные запросы. Но ByteDance, памятуя о регуляторном давлении в Китае, предпочла перестраховаться.

Чем Seedream 4.5 отличается от конкурентов?

Главное отличие — философия «всё с нуля». Если большинство open-source моделей строится на заимствованных компонентах (VAE от одной команды, текстовый энкодер от другой, шедулер шума от третьей), то ByteDance разработала каждый элемент пайплайна самостоятельно. Это колоссальный объём работы, который, впрочем, окупается: все компоненты идеально подогнаны друг к другу, а узкие места можно оптимизировать без оглядки на чужой код. К тому же компания вложилась в собственный текстовый энкодер, специально адаптированный под мультиязычные промпты, — и именно это позволяет Seedream понимать запросы на китайском языке значительно лучше, чем модели, завязанные на CLIP от OpenAI.

Ну и, конечно же, нужно отметить скорость инференса. ByteDance оптимизировала модель для работы в реальном времени: генерация изображения в разрешении 1024×1024 занимает от двух до четырёх секунд на одном H100. Для модели такого масштаба — результат впечатляющий.

Seedream 4.5 — наглядное доказательство того, что в гонке генеративных технологий побеждает не тот, кто первым опубликовал статью, а тот, кто готов скрупулёзно выстраивать каждый этап: от сбора данных до финальной полировки через RLHF. ByteDance показала, что систематический подход, помноженный на щедрую инфраструктуру и свежий взгляд на архитектуру, творит чудеса. А тем, кто следит за этой областью, стоит держать Seedream в поле зрения — очередная итерация наверняка удивит ещё сильнее.