SD XL

详情

下载文件

模型描述

最初发布于 Hugging Face,并经 Stability AI 授权在此共享。

SDXL 由一个两阶段的潜在扩散流程组成:首先,我们使用基础模型生成所需输出尺寸的潜在表示;在第二阶段,我们使用一个专门的高分辨率模型,并对第一阶段生成的潜在表示应用一种称为 SDEdit 的技术(https://arxiv.org/abs/2108.01073,也称为“img2img”),并使用相同的提示词。

模型描述

  • 开发方: Stability AI

  • 模型类型: 基于扩散的文本到图像生成模型

  • 模型描述: 这是一个可用于根据文本提示生成和修改图像的模型。它是一个潜在扩散模型,使用两个固定的预训练文本编码器(OpenCLIP-ViT/GCLIP-ViT/L)。

  • 更多信息资源: GitHub 仓库

模型来源

用途

直接用途

本模型仅用于研究目的。可能的研究领域和任务包括:

  • 艺术作品的生成及其在设计和其他艺术过程中的应用。

  • 在教育或创意工具中的应用。

  • 对生成模型的研究。

  • 安全部署可能生成有害内容的模型。

  • 探索和理解生成模型的局限性与偏见。

以下用途不包括在内。

超出范围的用途

该模型未经过训练以生成关于人物或事件的准确或真实表示,因此使用该模型生成此类内容超出了其能力范围。

局限性与偏见

局限性

  • 该模型无法实现完美的写实效果

  • 该模型无法渲染可读的文本

  • 该模型在涉及组合性的较复杂任务中表现不佳,例如生成“一个红色立方体位于蓝色球体上方”的图像

  • 人脸及一般人物可能无法正确生成

  • 模型的自编码部分是有损的

偏见

尽管图像生成模型的能力令人印象深刻,但它们也可能强化或加剧社会偏见。

上图评估了用户对 SDXL(有无精炼)相较于 Stable Diffusion 1.5 和 2.1 的偏好。SDXL 基础模型的表现显著优于先前版本,而结合精炼模块的模型实现了整体最佳性能。

此模型生成的图像

未找到图像。