Z-Image Turbo [TensorCoreFP8]
详情
下载文件
模型描述
是的。体积缩小40%,速度快50%!
这是一个新的FP8缩放检查点,支持最新的ComfyUI功能:混合精度、训练后校准和FP8张量核心支持。
此模型已校准元数据,ComfyUI将直接在支持的硬件上执行FP8计算,而非BF16,这比BF16和经典FP8模型(仅包含FP8量化权重,无FP8计算)快得多(+50% it/s)。
关于Z-image:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
简而言之:
混合精度:
早期和最终层仍为BF16,中间层为FP8。因此,此模型比经典FP8模型大1GB。
训练后校准与FP8张量核心支持:
如果你拥有较新的NVIDIA显卡(可能是RTX 4xxx及之后型号):
这些GPU原生支持FP8计算硬件。此模型包含训练后校准的元数据,ComfyUI将自动利用这些先进的张量核心,直接执行FP8计算,而非BF16。
在4090上,与使用BF16模型相比:
经典FP8缩放模型:-8% it/s(FP8 → BF16反量化开销)
经典FP8缩放模型 + torch.compile:+11% it/s
此模型:+31% it/s
此模型 + torch.compile:+60% it/s
在5xxx系列GPU上,由于更新的张量核心和更好的FP8支持,速度应更快(尚未测试)。
要使用torch.compile,我推荐使用“ComfyUI-KJNodes”中的torch.compile节点。
然而,关于torch.compile:截至我撰写本文时(2025年11月28日),ComfyUI v0.3.75存在一个小bug,无法对使用张量核心的FP8模型进行torch.compile。该问题已修复,请务必升级至ComfyUI v0.3.76后重试,或暂时切换至master分支。
如果你的GPU不支持FP8张量核心:
无需担心。此模型仍可为你节省约40%的VRAM。
附注:此模型(ComfyUI利用FP8张量核心进行线性计算的方式)与各种注意力优化(如SageAttention等)兼容。但这属于另一个话题。



