SD XL
详情
下载文件
模型描述
最初发布于 Hugging Face,并经 Stability AI 授权在此共享。

SDXL 由一个两阶段的潜在扩散流程组成:首先,我们使用基础模型生成所需输出尺寸的潜在表示;在第二阶段,我们使用一个专门的高分辨率模型,并对第一阶段生成的潜在表示应用一种称为 SDEdit 的技术(https://arxiv.org/abs/2108.01073,也称为“img2img”),并使用相同的提示词。
模型描述
开发方: Stability AI
模型类型: 基于扩散的文本到图像生成模型
模型描述: 这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型,使用两个固定的预训练文本编码器(OpenCLIP-ViT/G 和 CLIP-ViT/L)。
更多信息资源: GitHub 仓库。
模型来源
用途
直接用途
本模型仅用于研究目的。可能的研究领域和任务包括:
艺术作品的生成及其在设计和其他艺术过程中的应用。
在教育或创意工具中的应用。
对生成模型的研究。
安全部署可能生成有害内容的模型。
探索和理解生成模型的局限性与偏见。
以下用途不包括在内。
超出范围的用途
该模型未经过训练以生成关于人物或事件的准确或真实表示,因此使用该模型生成此类内容超出了其能力范围。
局限性与偏见
局限性
该模型无法实现完美的写实效果
该模型无法渲染可读的文本
该模型在涉及组合性的较复杂任务中表现不佳,例如生成“一个红色立方体位于蓝色球体上方”的图像
人脸及一般人物可能无法正确生成
模型的自编码部分是有损的
偏见
尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。

上图评估了用户对 SDXL(有无精炼)相较于 Stable Diffusion 1.5 和 2.1 的偏好。SDXL 基础模型的表现显著优于先前版本,而结合精炼模块的模型实现了整体最佳性能。



















