Neta Lumina [TensorCoreFP8]

详情

下载文件

模型描述

本页面包含 Neta Lumina 的 fp8 缩放 DiT 模型。

所有版权归属原始模型作者。许可证与原始模型相同。


供参考:

Lumina 2 的 fp8 缩放 DiT 模型仅 2.5GB。是的,这意味着即使使用 3GB 显存的显卡,你也可以无需交换层直接运行它。尽管这其实毫无意义,因为如今没人会用 GTX 1050 来运行它。这仅是为了展示其效率。

关于“缩放 fp8”:

  • “缩放 fp8”不是真正的 fp8。“缩放 fp8”能提供与原始模型完全相同的质量。

  • 显存使用量减少 50%。

  • ComfyUI 原生支持,无需任何更改,只需使用相同的加载节点将其作为普通模型加载即可。

  • 不幸的是,目前尚无完整的 fp8 计算支持(2025年10月20日),所有计算仍为 bf16。我尝试过,但出现了溢出。

  • 如果你的显卡瓶颈在于显存总线,运行速度可能会稍快一些;否则无差异。

fp8 缩放的 Gemma 2 2b:

通常没有必要,因为文本编码器仅运行一次,随后就会被卸载到 CPU。但在你的内存也不足时有用。例如,完整的 bf16 模型需要 10GB 内存加载(DiT:4.8GB,文本编码器:5.5GB),如果你的系统总内存 ≤16GB,这会是个问题。而完整的 fp8 缩放模型仅需约 5.5GB(2.5 + 3)。

此模型生成的图像

未找到图像。