Seedream

详情

模型描述

Seedream 3.0/4.0 + 现已支持本地生成!

https://seed.bytedance.com/en/seedream4_0

以下详细内容最初发布于:https://seed.bytedance.com/en/tech/seedream3_0

技术革新

与我们之前的模型 Seedream 2.0 相比,我们采用了多项创新策略,以应对现有挑战,包括图像分辨率受限、复杂属性遵循困难、细粒度字体生成不足以及视觉美感与保真度欠佳等问题。

这主要体现在以下四个方面:

• 在数据层面,通过一种新颖的动态采样机制,数据集规模扩大了约100%,该机制在两个正交维度上运行:图像聚类分布和文本语义一致性。

• 在预训练阶段,我们对2.0版本进行了多项改进,显著提升了模型的可扩展性、泛化能力以及视觉-语言对齐效果:i) 混合分辨率训练;ii) 跨模态 RoPE;iii) 表示对齐损失;iv) 分辨率感知的时间步采样。

• 在后训练优化阶段,我们利用多样化的美学描述和基于VLM的奖励模型,进一步提升模型的综合能力。

• 在模型加速方面,我们通过一致的噪声期望实现稳定采样,有效减少了推理过程中的函数评估次数(NFE)。

图1 Seedream 3.0 在人工分析图像竞技场排行榜中位列第一。由于数据缺失,Imagen 3 的人像结果和 Seedream 2.0 的总体结果由其他模型的平均值表示。

迭代模型性能

与 Seedream 2.0 相比,Seedream 3.0 在多个维度上实现了显著突破:

原生高分辨率:原生支持2K分辨率输出,无需后处理,同时兼容更高分辨率,并适配多种宽高比。

综合能力全面提升:在文本-图像对齐、构图结构设计、美学质量及文字渲染能力方面均有显著提升。

文字渲染性能大幅提升:在小字号生成、汉字准确性及高美学长文本排版方面表现卓越。该模型成功攻克了小文本生成和长文本排版的行业难题,其图形设计输出已超越Canva等平台的手动设计模板。凭借精准且美学优化的文字生成能力,可轻松创建设计师级别的海报,无缝融合多样字体、风格与布局。

美学提升:图像美学质量显著增强,在电影级场景渲染和生成具有更真实纹理的人像方面表现出色。

闪电般的生成体验:通过多项创新加速技术,推理成本大幅降低。目前,1K分辨率图像的端到端生成仅需3.0秒。

图2 人类评估结果。Seedream 3.0 在图像-文本匹配、构图和美学方面均超越其他模型。

此模型生成的图像

未找到图像。