Neta Lumina [TensorCoreFP8]
详情
下载文件
关于此版本
模型描述
本页面包含 Neta Lumina 的 fp8 缩放 DiT 模型。
Neta Lumina (NT)
NetaYume Lumina (NTYM)
以及一个 fp8 缩放的 Gemma 2 2b(文本编码器)。
所有版权归属原始模型作者。许可证与原始模型相同。
供参考:
Lumina 2 的 fp8 缩放 DiT 模型仅 2.5GB。是的,这意味着即使使用 3GB 显存的显卡,你也可以无需交换层直接运行它。尽管这其实毫无意义,因为如今没人会用 GTX 1050 来运行它。这仅是为了展示其效率。
关于“缩放 fp8”:
“缩放 fp8”不是真正的 fp8。“缩放 fp8”能提供与原始模型完全相同的质量。
显存使用量减少 50%。
ComfyUI 原生支持,无需任何更改,只需使用相同的加载节点将其作为普通模型加载即可。
不幸的是,目前尚无完整的 fp8 计算支持(2025年10月20日),所有计算仍为 bf16。我尝试过,但出现了溢出。
如果你的显卡瓶颈在于显存总线,运行速度可能会稍快一些;否则无差异。
fp8 缩放的 Gemma 2 2b:
通常没有必要,因为文本编码器仅运行一次,随后就会被卸载到 CPU。但在你的内存也不足时有用。例如,完整的 bf16 模型需要 10GB 内存加载(DiT:4.8GB,文本编码器:5.5GB),如果你的系统总内存 ≤16GB,这会是个问题。而完整的 fp8 缩放模型仅需约 5.5GB(2.5 + 3)。


