Сравнение версий Seedream 4 5 по качеству генерации

Ещё пару лет назад генерация изображений по текстовому описанию казалась забавной игрушкой: нейросеть рисовала нечто среднее между детским рисунком и абстрактным кошмаром, а о реалистичных лицах или правильных руках никто даже не грезил. Но технологии рванули вперёд с такой скоростью, что за одним только семейством моделей Seedream от ByteDance уследить стало довольно непросто. Версии выходят одна за другой, каждая следующая обещает революцию, и обыватель резонно задаётся вопросом: а стоит ли вообще разбираться в нюансах между четвёртой и пятой итерациями, или разница там косметическая? Но чтобы не строить иллюзий и не разочаровываться, стоит всё-таки разложить по полочкам, чем именно эти две версии друг от друга отличаются.

Все топовые нейросети в одном месте

Что из себя представляет Seedream как семейство моделей

Немного контекста. Seedream – это линейка генеративных моделей изображений, разработанная командой ByteDance, той самой компании, которая подарила миру TikTok. Первые версии появились относительно тихо, без грандиозного маркетингового шума, однако к третьей-четвёртой итерации профессиональное сообщество начало всерьёз обращать на них внимание. Дело в том, что архитектура Seedream тяготеет к диффузионным моделям нового поколения, усиленным трансформерными блоками, что в теории позволяет добиться лучшего понимания текстовых промтов. К слову, именно это сочетание и стало тем фундаментом, на котором выросли обе обсуждаемые версии.

Seedream 4 появилась в момент, когда конкуренция в сфере text-to-image достигла, пожалуй, пиковой плотности. DALL-E 3, Midjourney v6, Stable Diffusion XL – все они уже вовсю солировали на рынке. И ByteDance нужно было чем-то удивлять. Четвёртая версия сделала ставку на улучшенное следование инструкциям и общую когерентность изображений. А вот пятая, вышедшая спустя несколько месяцев, замахнулась на куда более амбициозные цели.

Качество следования промту: кто точнее слышит пользователя?

Вот здесь начинается самое интересное. Одна из главных претензий к Seedream 4 заключалась в том, что модель довольно часто «терялась» при сложных композиционных запросах. Скажем, если попросить нарисовать трёх человек разного роста, стоящих перед красным домом с зелёной крышей, четвёртая версия могла запросто перепутать цвета, слить две фигуры в одну или вовсе проигнорировать часть описания. Знакомая ситуация? Ведь ровно та же проблема преследовала практически все генеративные модели 2023 года.

Зачем переплачивать за нейросети? Экономьте сотни долларов каждый месяц 💸

Оплачивать Midjourney, премиум-версии ChatGPT, видео- и аудио-генераторы по отдельности — это безумно дорого и неудобно. Этот сервис решает проблему! Получите полный пакет премиум-моделей (более 90 топовых нейросетей) по цене одной доступной подписки. Безлимитные возможности, никаких скрытых платежей и сгорающих токенов при активном тарифе.

Перестаньте платить за 10 разных сайтов. Выбирайте выгоду и творите без ограничений 👉 https://clck.ru/3RNCRL

Seedream 5 в этом отношении сделала внушительный шаг вперёд. Многоатрибутная привязка – то есть способность чётко распределять описанные свойства между разными объектами на картинке – заметно подтянулась. По тестам, которые ByteDance опубликовала в сопроводительной документации, точность соответствия промту выросла примерно на 15–18 процентов по метрикам CLIP-score. Но не стоит слепо доверять внутренним бенчмаркам. Ведь субъективное впечатление при ручном сравнении порой рассказывает совсем другую историю.

Реалистичность и детализация

Зрелище порой впечатляющее. Если поставить рядом два портрета, сгенерированных четвёртой и пятой версиями по одному и тому же промту, разница бросается в глаза далеко не сразу. Но стоит приглядеться к мелочам – к текстуре кожи, к бликам в радужке глаза, к тому, как свет ложится на волосы – и преимущество пятой версии становится очевидным. Seedream 4 нередко грешила так называемым «пластиковым» эффектом: лица выходили чрезмерно гладкими, словно отретушированными до неестественности. Пятая же версия добавила ту самую «грязь реализма» – поры, лёгкую асимметрию, микрорельеф кожи.

С пейзажами и архитектурой ситуация несколько иная. Четвёртая версия, как ни странно, иногда выдавала более «живые» природные сцены, особенно когда дело касалось водных поверхностей и неба на закате. Пятая здесь тоже хороша, однако в погоне за детализацией она временами перегружает сцену, и вместо воздушной лёгкости получается нечто слишком плотное, перенасыщенное фактурами. Впрочем, это скорее придирки на профессиональном уровне, и для львиной доли пользовательских задач такой нюанс погоды не делает.

Как обе версии справляются с текстом на изображениях?

Больная тема. Буквально год-полтора назад генерация читаемого текста на картинке была для нейросетей чем-то из области фантастики. Буквы плавились, склеивались, превращались в потусторонние символы – зрелище удручающее. Seedream 4 предприняла попытку решить эту проблему, и частично ей это удалось: короткие надписи из трёх-четырёх слов латиницей модель рисовала уже довольно сносно. Но стоило добавить кириллицу или удлинить фразу, и всё рассыпалось.

В Seedream 5 этот аспект проработан значительно глубже. Разработчики интегрировали дополнительный модуль, отвечающий за типографическую согласованность, и результат виден невооружённым глазом. Латинские надписи длиной до семи-восьми слов теперь выходят практически безошибочно, а кириллица, хоть и остаётся проблемной зоной, всё же подтянулась: ошибки встречаются примерно в каждом третьем случае вместо стабильных девяти из десяти, как это было прежде. К тому же шрифтовое разнообразие расширилось – модель стала лучше различать просьбу написать текст «рукописным почерком» или «строгим геометрическим шрифтом».

Руки, пальцы и анатомические подводные камни

Легендарная ахиллесова пята всех генеративных моделей. Шесть пальцев на руке, суставы, вывернутые под невозможным углом, ноги, растущие из неожиданных мест – всё это стало мемом задолго до Seedream. Четвёртая версия, надо отдать ей должное, уже демонстрировала определённый прогресс: при генерации крупных портретов руки выглядели приемлемо примерно в шестидесяти процентах случаев. Но стоило уменьшить масштаб фигуры или добавить сложную позу, как анатомические кошмары возвращались.

Seedream 5 здесь заметно увереннее стоит на ногах. Механизм, благодаря которому это стало возможным, связан с так называемым анатомическим кондиционированием – отдельной подсистемой, натренированной на корректных скелетных позах. По ощущениям, процент «правильных» рук вырос до семидесяти пяти – восьмидесяти процентов, что весьма ощутимо. И всё же идеала нет. Особенно если промт предполагает переплетение пальцев или хватательное движение мелкого предмета. Тут ведь даже у Midjourney v6 всплывают артефакты.

Скорость генерации и вычислительные требования

Нюанс, о котором часто забывают, увлёкшись визуальным качеством. А ведь именно он бьёт по бюджету при промышленном использовании. Seedream 4, работающая на карточках уровня A100, выдавала изображение 1024×1024 примерно за четыре-пять секунд. Добротный результат для своего времени. Пятая версия, несмотря на возросшую сложность модели, смогла удержать время генерации примерно на том же уровне – около пяти-шести секунд. Это связано с тем, что разработчики параллельно оптимизировали пайплайн вычислений, применив техники дистилляции и квантизации.

Но есть ложка дёгтя. Если четвёрка довольно комфортно ощущала себя на потребительских видеокартах с двенадцатью гигабайтами видеопамяти (при условии оптимизированных весов), то пятая версия аппетиты свои увеличила. Минимальный комфортный порог сместился к 16 гигабайтам, а для полноценной работы без компромиссов по качеству стоит рассчитывать на 24 гигабайта и выше. Для коммерческих API-решений этот момент не критичен, а вот энтузиасты, запускающие модель локально, разницу прочувствуют на собственном кошельке.

Стилизация и художественная гибкость

Здесь обе стороны медали видны особенно чётко. Seedream 4 славилась тем, что неплохо справлялась с фотореалистичным стилем, но при попытке сгенерировать что-то в духе акварели, масляной живописи или аниме результат выходил довольно неоднозначным. Модель словно тяготела к одной эстетике и сопротивлялась всему, что выходило за её рамки. Стилизация «под Миядзаки» или «под Гогена» выглядела скорее как фильтр, наложенный поверх всё того же фотореалистичного изображения, нежели как осознанная художественная интерпретация.

Все топовые нейросети в одном месте

А вот Seedream 5 в этом отношении творит чудеса. Нет, серьёзно. Диапазон стилей, которые модель теперь способна воспроизвести с убедительной достоверностью, расширился многократно. Акварельные размытия выглядят именно как акварель – с характерными затёками пигмента и зернистостью бумаги. Карандашный набросок сохраняет штриховую текстуру. Ну и, конечно же, аниме-стилистика, столь востребованная у азиатской аудитории, вышла на совершенно другой уровень: чистые лайны, правильные пропорции, выразительная палитра. К слову, именно этот прорыв в стилизации сделал пятую версию особенно популярной среди digital-художников.

Стоит ли переходить с четвёртой на пятую?

Вопрос, ответ на который зависит от задач. Если основная цель – генерация простых иллюстраций для социальных сетей или быстрые концепт-арты без особых требований к анатомической точности и типографике, Seedream 4 всё ещё вполне справляется. Она легче, менее требовательна к железу и вполне предсказуема в своих возможностях. Для обывателя, который генерирует пару-тройку картинок в неделю, разница между версиями не станет решающей.

Но для тех, кто работает с изображениями профессионально – дизайнеров, маркетологов, контент-мейкеров – переход на Seedream 5 выглядит скорее необходимостью, чем прихотью. Тем более что улучшения затронули не один-два аспекта, а практически весь спектр: от следования промту до анатомической корректности, от текстовой генерации до художественной гибкости. Да и сама ByteDance явно сосредоточила ресурсы на развитии именно пятой линейки, что намекает на скорое снижение поддержки четвёрки.

Ну, а если смотреть шире, обе версии – впечатляющее свидетельство того, как быстро развивается эта область. Буквально за один модельный цикл качество генерации продвинулось настолько, что сравнивать Seedream 4 и 5 – это примерно как сравнивать смартфон двухлетней давности с нынешним флагманом: старый всё ещё работает, но новый делает это заметно изящнее. Удачи в экспериментах и смелых промтах – результаты наверняка порадуют.