Сравнение версий Seedream 4 5 по качеству генерации

Ещё пару лет назад генерация изображений по текстовому описанию казалась забавной игрушкой: нейросеть рисовала нечто среднее между детским рисунком и абстрактным кошмаром, а о реалистичных лицах или правильных руках никто даже не грезил. Но технологии рванули вперёд с такой скоростью, что за одним только семейством моделей Seedream от ByteDance уследить стало довольно непросто. Версии выходят одна за другой, каждая следующая обещает революцию, и обыватель резонно задаётся вопросом: а стоит ли вообще разбираться в нюансах между четвёртой и пятой итерациями, или разница там косметическая? Но чтобы не строить иллюзий и не разочаровываться, стоит всё-таки разложить по полочкам, чем именно эти две версии друг от друга отличаются.

Что из себя представляет Seedream как семейство моделей

Немного контекста. Seedream – это линейка генеративных моделей изображений, разработанная командой ByteDance, той самой компании, которая подарила миру TikTok. Первые версии появились относительно тихо, без грандиозного маркетингового шума, однако к третьей-четвёртой итерации профессиональное сообщество начало всерьёз обращать на них внимание. Дело в том, что архитектура Seedream тяготеет к диффузионным моделям нового поколения, усиленным трансформерными блоками, что в теории позволяет добиться лучшего понимания текстовых промтов. К слову, именно это сочетание и стало тем фундаментом, на котором выросли обе обсуждаемые версии.

Seedream 4 появилась в момент, когда конкуренция в сфере text-to-image достигла, пожалуй, пиковой плотности. DALL-E 3, Midjourney v6, Stable Diffusion XL – все они уже вовсю солировали на рынке. И ByteDance нужно было чем-то удивлять. Четвёртая версия сделала ставку на улучшенное следование инструкциям и общую когерентность изображений. А вот пятая, вышедшая спустя несколько месяцев, замахнулась на куда более амбициозные цели.

Качество следования промту: кто точнее слышит пользователя?

Вот здесь начинается самое интересное. Одна из главных претензий к Seedream 4 заключалась в том, что модель довольно часто «терялась» при сложных композиционных запросах. Скажем, если попросить нарисовать трёх человек разного роста, стоящих перед красным домом с зелёной крышей, четвёртая версия могла запросто перепутать цвета, слить две фигуры в одну или вовсе проигнорировать часть описания. Знакомая ситуация? Ведь ровно та же проблема преследовала практически все генеративные модели 2023 года.

Seedream 5 в этом отношении сделала внушительный шаг вперёд. Многоатрибутная привязка – то есть способность чётко распределять описанные свойства между разными объектами на картинке – заметно подтянулась. По тестам, которые ByteDance опубликовала в сопроводительной документации, точность соответствия промту выросла примерно на 15–18 процентов по метрикам CLIP-score. Но не стоит слепо доверять внутренним бенчмаркам. Ведь субъективное впечатление при ручном сравнении порой рассказывает совсем другую историю.

Реалистичность и детализация

Зрелище порой впечатляющее. Если поставить рядом два портрета, сгенерированных четвёртой и пятой версиями по одному и тому же промту, разница бросается в глаза далеко не сразу. Но стоит приглядеться к мелочам – к текстуре кожи, к бликам в радужке глаза, к тому, как свет ложится на волосы – и преимущество пятой версии становится очевидным. Seedream 4 нередко грешила так называемым «пластиковым» эффектом: лица выходили чрезмерно гладкими, словно отретушированными до неестественности. Пятая же версия добавила ту самую «грязь реализма» – поры, лёгкую асимметрию, микрорельеф кожи.

С пейзажами и архитектурой ситуация несколько иная. Четвёртая версия, как ни странно, иногда выдавала более «живые» природные сцены, особенно когда дело касалось водных поверхностей и неба на закате. Пятая здесь тоже хороша, однако в погоне за детализацией она временами перегружает сцену, и вместо воздушной лёгкости получается нечто слишком плотное, перенасыщенное фактурами. Впрочем, это скорее придирки на профессиональном уровне, и для львиной доли пользовательских задач такой нюанс погоды не делает.

Как обе версии справляются с текстом на изображениях?

Больная тема. Буквально год-полтора назад генерация читаемого текста на картинке была для нейросетей чем-то из области фантастики. Буквы плавились, склеивались, превращались в потусторонние символы – зрелище удручающее. Seedream 4 предприняла попытку решить эту проблему, и частично ей это удалось: короткие надписи из трёх-четырёх слов латиницей модель рисовала уже довольно сносно. Но стоило добавить кириллицу или удлинить фразу, и всё рассыпалось.

В Seedream 5 этот аспект проработан значительно глубже. Разработчики интегрировали дополнительный модуль, отвечающий за типографическую согласованность, и результат виден невооружённым глазом. Латинские надписи длиной до семи-восьми слов теперь выходят практически безошибочно, а кириллица, хоть и остаётся проблемной зоной, всё же подтянулась: ошибки встречаются примерно в каждом третьем случае вместо стабильных девяти из десяти, как это было прежде. К тому же шрифтовое разнообразие расширилось – модель стала лучше различать просьбу написать текст «рукописным почерком» или «строгим геометрическим шрифтом».

Руки, пальцы и анатомические подводные камни

Легендарная ахиллесова пята всех генеративных моделей. Шесть пальцев на руке, суставы, вывернутые под невозможным углом, ноги, растущие из неожиданных мест – всё это стало мемом задолго до Seedream. Четвёртая версия, надо отдать ей должное, уже демонстрировала определённый прогресс: при генерации крупных портретов руки выглядели приемлемо примерно в шестидесяти процентах случаев. Но стоило уменьшить масштаб фигуры или добавить сложную позу, как анатомические кошмары возвращались.

Seedream 5 здесь заметно увереннее стоит на ногах. Механизм, благодаря которому это стало возможным, связан с так называемым анатомическим кондиционированием – отдельной подсистемой, натренированной на корректных скелетных позах. По ощущениям, процент «правильных» рук вырос до семидесяти пяти – восьмидесяти процентов, что весьма ощутимо. И всё же идеала нет. Особенно если промт предполагает переплетение пальцев или хватательное движение мелкого предмета. Тут ведь даже у Midjourney v6 всплывают артефакты.

Скорость генерации и вычислительные требования

Нюанс, о котором часто забывают, увлёкшись визуальным качеством. А ведь именно он бьёт по бюджету при промышленном использовании. Seedream 4, работающая на карточках уровня A100, выдавала изображение 1024×1024 примерно за четыре-пять секунд. Добротный результат для своего времени. Пятая версия, несмотря на возросшую сложность модели, смогла удержать время генерации примерно на том же уровне – около пяти-шести секунд. Это связано с тем, что разработчики параллельно оптимизировали пайплайн вычислений, применив техники дистилляции и квантизации.

Но есть ложка дёгтя. Если четвёрка довольно комфортно ощущала себя на потребительских видеокартах с двенадцатью гигабайтами видеопамяти (при условии оптимизированных весов), то пятая версия аппетиты свои увеличила. Минимальный комфортный порог сместился к 16 гигабайтам, а для полноценной работы без компромиссов по качеству стоит рассчитывать на 24 гигабайта и выше. Для коммерческих API-решений этот момент не критичен, а вот энтузиасты, запускающие модель локально, разницу прочувствуют на собственном кошельке.

Стилизация и художественная гибкость

Здесь обе стороны медали видны особенно чётко. Seedream 4 славилась тем, что неплохо справлялась с фотореалистичным стилем, но при попытке сгенерировать что-то в духе акварели, масляной живописи или аниме результат выходил довольно неоднозначным. Модель словно тяготела к одной эстетике и сопротивлялась всему, что выходило за её рамки. Стилизация «под Миядзаки» или «под Гогена» выглядела скорее как фильтр, наложенный поверх всё того же фотореалистичного изображения, нежели как осознанная художественная интерпретация.

А вот Seedream 5 в этом отношении творит чудеса. Нет, серьёзно. Диапазон стилей, которые модель теперь способна воспроизвести с убедительной достоверностью, расширился многократно. Акварельные размытия выглядят именно как акварель – с характерными затёками пигмента и зернистостью бумаги. Карандашный набросок сохраняет штриховую текстуру. Ну и, конечно же, аниме-стилистика, столь востребованная у азиатской аудитории, вышла на совершенно другой уровень: чистые лайны, правильные пропорции, выразительная палитра. К слову, именно этот прорыв в стилизации сделал пятую версию особенно популярной среди digital-художников.

Стоит ли переходить с четвёртой на пятую?

Вопрос, ответ на который зависит от задач. Если основная цель – генерация простых иллюстраций для социальных сетей или быстрые концепт-арты без особых требований к анатомической точности и типографике, Seedream 4 всё ещё вполне справляется. Она легче, менее требовательна к железу и вполне предсказуема в своих возможностях. Для обывателя, который генерирует пару-тройку картинок в неделю, разница между версиями не станет решающей.

Но для тех, кто работает с изображениями профессионально – дизайнеров, маркетологов, контент-мейкеров – переход на Seedream 5 выглядит скорее необходимостью, чем прихотью. Тем более что улучшения затронули не один-два аспекта, а практически весь спектр: от следования промту до анатомической корректности, от текстовой генерации до художественной гибкости. Да и сама ByteDance явно сосредоточила ресурсы на развитии именно пятой линейки, что намекает на скорое снижение поддержки четвёрки.

Ну, а если смотреть шире, обе версии – впечатляющее свидетельство того, как быстро развивается эта область. Буквально за один модельный цикл качество генерации продвинулось настолько, что сравнивать Seedream 4 и 5 – это примерно как сравнивать смартфон двухлетней давности с нынешним флагманом: старый всё ещё работает, но новый делает это заметно изящнее. Удачи в экспериментах и смелых промтах – результаты наверняка порадуют.