Генерация изображений по текстовому описанию ещё пару лет назад казалась экзотикой, доступной узкому кругу исследователей и энтузиастов, а сегодня любой обыватель может получить картинку профессионального уровня за считаные секунды. Нейросетей для этих целей расплодилось столько, что глаза разбегаются, и среди них всё громче заявляет о себе семейство Seedream от ByteDance — компании, которую львиная доля пользователей знает благодаря TikTok. Между версиями 4.5 и 5.0 разница на первый взгляд не бросается в глаза, однако дьявол, как водится, прячется в деталях. А чтобы эти детали разглядеть, стоит провести скрупулёзное сравнение на одних и тех же промтах, в одних и тех же условиях.
Что за зверь такой — Seedream?
Seedream — это диффузионная модель генерации изображений, которую команда ByteDance развивает параллельно с другими своими нейросетевыми проектами. Версия 4.5 появилась в начале 2025 года и довольно быстро завоевала симпатии в среде тех, кто профессионально работает с визуальным контентом. Дело в том, что модель тяготеет к фотореалистичному стилю, хотя и стилизованную графику генерирует вполне достойно. А вот 5.0 generation вышла буквально через несколько месяцев, что для индустрии — темп почти немыслимый. К слову, такая скорость итераций намекает на серьёзный рывок в архитектуре, а не просто на косметические правки.
Нужно отметить, что обе версии работают на базе латентной диффузии, но 5.0 получила обновлённый текстовый энкодер и расширенное внутреннее разрешение рабочего пространства. Это значит, что модель «думает» в более высоком разрешении ещё до финального апскейла. Ведь именно на этом этапе закладывается мелкая детализация — текстуры кожи, структура ткани, блики на металле. Впрочем, теория теорией, а разницу стоит проверять на практике.
Фотореализм: кожа, волосы, глаза
Портреты. Пожалуй, самый щепетильный жанр для любой генеративной модели. Ведь человеческое лицо мы считываем мгновенно, и малейшая фальшь бросается в глаза быстрее, чем успеваешь осознать, что именно не так. На промте «portrait of a 40-year-old woman in soft morning light, shallow depth of field» версия 4.5 выдаёт добротный результат — мягкие тени под скулами, приятное боке на фоне, естественная цветовая палитра. Но при увеличении до ста процентов натыкаешься на характерные нюансы: текстура кожи в зоне лба слегка «замыленная», а переход от радужки к зрачку выглядит чуть упрощённо, словно нарисованным маркером.
Ваш личный ИИ-отдел маркетинга, который работает 24/7 📈
Ускорьте создание контента в 10 раз! Этот мульти-ИИ сервис позволяет писать безупречные продающие посты, генерировать уникальные фото для соцсетей, создавать рекламные промо-ролики с нуля и писать для них музыку в пару кликов. Идеальное решение для предпринимателей, маркетологов и SMM-специалистов. Всё в едином удобном интерфейсе — больше не нужно переключаться между десятком вкладок.
Делегируйте рутину искусственному интеллекту и увеличивайте продажи. Начните работу здесь 👉 https://clck.ru/3RNCRL
Версия 5.0 при том же промте справляется заметно лучше. Поры на коже различимы даже при беглом взгляде, а в глазах появляется та самая «мокрая» глубина, которой так не хватало предшественнице. Отдельно стоит упомянуть волосы: если в 4.5 отдельные пряди всё-таки сливались в монолитную массу ближе к затылку, то в 5.0 каждый волосок на периферии причёски живёт своей жизнью. Мелочь? Возможно. Но именно из таких мелочей складывается ощущение «живой» фотографии.
Как модели справляются с текстом на изображениях?
Больная тема. Буквально. До недавнего времени ни одна генеративная модель не умела внятно рисовать надписи, и каждая попытка заканчивалась неразборчивой кашей из псевдосимволов. Seedream 4.5 сделала в этом направлении ощутимый шаг — короткие слова из четырёх-пяти букв на английском она воспроизводит корректно примерно в шести случаях из десяти. Это довольно неплохо по меркам начала 2025 года, но для коммерческого использования всё же маловато.
А вот 5.0 generation здесь совершила настоящий прорыв. Промт «vintage neon sign saying OPEN LATE against a brick wall at night» в восьми запусках из десяти даёт безупречно читаемую надпись с правильным количеством букв и адекватным кернингом. Даже кириллица, которая для большинства западных моделей остаётся камнем преткновения, в 5.0 начинает худо-бедно работать — короткие слова вроде «КАФЕ» или «ВХОД» воспроизводятся без грубых ошибок примерно в половине случаев. Это связано с тем, что новый текстовый энкодер в 5.0 получил расширенный словарь токенов, включающий не только латиницу.
Стилизация и художественные направления
Не фотореализмом единым. Многие используют генеративные модели именно ради стилизации — под акварель, масло, аниме, ретрофутуризм и десятки других направлений. Тут обе версии Seedream показывают себя достойно, но с разной степенью убедительности. Версия 4.5, к примеру, прекрасно справляется с аниме-стилистикой и плоской графикой. Контуры чёткие, палитра насыщенная, композиция грамотная. Однако стоит запросить что-то вроде «oil painting in the style of the Dutch Golden Age, dramatic chiaroscuro», и результат получается… неоднозначный. Мазки есть, светотень есть, но текстура холста наложена слишком равномерно, словно фильтр в фоторедакторе.
В 5.0 generation с «масляной живописью» дело обстоит куда интереснее. Модель научилась варьировать толщину красочного слоя — импасто на светлых участках и тонкие лессировки в тенях. Да и сама композиция стала «смелее»: камера чаще берёт нестандартные ракурсы, а персонажи выглядят менее «постановочно». Конечно, до уровня настоящего Рембрандта далеко, однако для маркетинговых материалов, обложек книг или концепт-артов — вполне рабочий инструмент. Кстати, стиль «ретрофутуризм» (тот самый, с хромированными ракетами и пышными причёсками 1960-х) обе версии отрабатывают на пять с плюсом, и тут разницу между ними заметит разве что самый придирчивый наблюдатель.
Сложные сцены с множеством объектов
Задача не из лёгких. Генерация одного персонажа — это одно, а вот сцена, где нужно разместить нескольких людей, животных и предметы в логичном пространственном соотношении, — совершенно другой уровень сложности. Промт «a family of four having a picnic in a sunlit meadow, with a golden retriever lying nearby and a kite flying in the background» наглядно демонстрирует разрыв поколений.
В версии 4.5 семья получается, но ведь нюансы портят всё впечатление: у ребёнка на заднем плане может оказаться шесть пальцев, собака иногда «врастает» в одеяло, а воздушный змей теряет верёвку где-то на полпути к небу. Это не критические ошибки, но они мгновенно выдают искусственное происхождение картинки. Версия 5.0 здесь заметно аккуратнее. Пальцы стали почти безупречными (не стоит забывать, что «проблема пальцев» преследовала индустрию годами), пёс отчётливо лежит на траве, а не «в» ней, да и воздушный змей имеет полноценную нить, уходящую в руку одного из персонажей. Прогресс внушительный, хотя мелкие огрехи всё ещё всплывают — особенно при генерации групп больше пяти-шести человек.
Скорость генерации и ресурсоёмкость
Ещё один важный нюанс, который довольно часто обходят стороной в обзорах, целиком сфокусированных на визуале. Модель 4.5 генерирует одно изображение в разрешении 1024×1024 примерно за три-четыре секунды на серверах ByteDance. Это быстро. Версия 5.0 при тех же условиях работает чуть медленнее — около пяти-семи секунд на картинку. Разница вроде бы невелика, но при массовой генерации (скажем, сто-двести изображений для каталога) лишние три секунды на каждый запрос складываются в ощутимые минуты ожидания.
Стоит ли эта задержка улучшенного качества? На мой взгляд — однозначно да. Тем более что ByteDance уже анонсировала оптимизацию инференса для 5.0, и к моменту, когда вы читаете этот текст, скорость могла уже подтянуться. К тому же для большинства задач — от создания аватарок до подготовки иллюстраций для блога — разница в две-три секунды не бьёт по рабочему процессу сколько-нибудь заметно.
Работа с промтами: насколько точно модель слушается?
Послушание модели. Звучит забавно, но это, пожалуй, один из самых важных критериев. Можно иметь великолепный визуальный движок, который упорно игнорирует половину твоего промта, — и толку от него будет немного. Seedream 4.5 в этом смысле ведёт себя довольно своевольно: если в промте больше двух-трёх описательных конструкций, модель начинает «забывать» наименее эмоциональные из них. Например, в запросе «a red bicycle leaning against a blue wooden fence, with a wicker basket filled with sunflowers on the handlebars, soft afternoon light» корзина с подсолнухами может просто не появиться. Или подсолнухи превратятся в ромашки.
Версия 5.0 с длинными промтами справляется ощутимо лучше. Все три элемента из примера выше воспроизводятся корректно в подавляющем большинстве генераций. Но есть и ложка дёгтя: модель стала чуть «буквальнее». Если в 4.5 генератор мог приятно удивить неожиданной композицией или интересным световым решением, которое ты не запрашивал, то 5.0 строже следует инструкциям и реже «импровизирует». Для коммерческих задач такая предсказуемость — скорее плюс. А вот для творческого поиска, когда ждёшь от нейросети «счастливую случайность», это не всегда на руку.
Что насчёт артефактов и типичных ошибок?
Ни одна генеративная модель не застрахована от глюков, и Seedream тут не исключение. В версии 4.5 наиболее частая проблема — так называемые «плавающие тени»: объект освещён с одной стороны, а тень падает так, будто источник света находится совершенно в другом месте. К этому добавляются периодические проблемы с симметрией лица в портретах (одна ноздря шире другой, асимметрия ушей) и уже упомянутые пальцы.
В 5.0 тени стали физически достовернее — модель явно получила улучшенный модуль работы с освещением. Симметрия лица тоже подтянулась, хотя при боковом ракурсе с сильным перспективным искажением ошибки ещё случаются. Самый заметный прогресс — в генерации рук и ног. Если раньше любая поза сложнее «руки по швам» была лотереей, то теперь даже скрещённые пальцы и сложные жесты отрабатываются на удивление чисто. Не идеально, нет. Но прогресс колоссальный.
Стоит ли переходить с 4.5 на 5.0?
Вопрос, который волнует каждого, кто уже встроил Seedream 4.5 в свой рабочий пайплайн. Ответ зависит от задач. Если львиная доля генераций — это простые иллюстрации без текста, без сложных сцен и без требований к фотореалистичной детализации, то 4.5 по-прежнему справляется достойно и работает быстрее. Нет смысла переплачивать за вычислительные ресурсы ради преимуществ, которых в конкретном сценарии всё равно не видно.
Но стоит задачам усложниться — появляются надписи, групповые сцены, требования к физически корректному освещению, — и 5.0 показывает, ради чего её создавали. Разрыв особенно заметен на коммерческих задачах, где каждый артефакт обходится в дополнительное время на ручную ретушь. Да и сам факт того, что пальцы наконец-то стали похожи на пальцы, а не на щупальца инопланетянина, уже стоит обновления.
Ну и, конечно же, не стоит забывать про темпы развития: если ByteDance выпустила 5.0 спустя считаные месяцы после 4.5, то 5.5 или даже 6.0 могут появиться к осени. Индустрия генеративных изображений сейчас напоминает гонку болидов Формулы-1 — каждое обновление приносит десятые доли секунды, но именно из них складывается победа. Так что самое время окунуться в эксперименты с 5.0, пока конкуренты только раскачиваются. Удачи в генерациях — и пусть нейросеть послушно рисует ровно то, что задумано.

