Z-Image Turbo [TensorCoreFP8]

详情

下载文件

模型描述

是的。体积缩小40%,速度快50%!

这是一个新的FP8缩放检查点,支持最新的ComfyUI功能:混合精度、训练后校准和FP8张量核心支持

此模型已校准元数据,ComfyUI将直接在支持的硬件上执行FP8计算,而非BF16,这比BF16和经典FP8模型(仅包含FP8量化权重,无FP8计算)快得多(+50% it/s)。

关于Z-image:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo


简而言之:

混合精度

早期和最终层仍为BF16,中间层为FP8。因此,此模型比经典FP8模型大1GB。

训练后校准与FP8张量核心支持

如果你拥有较新的NVIDIA显卡(可能是RTX 4xxx及之后型号):

这些GPU原生支持FP8计算硬件。此模型包含训练后校准的元数据,ComfyUI将自动利用这些先进的张量核心,直接执行FP8计算,而非BF16。

在4090上,与使用BF16模型相比:

  • 经典FP8缩放模型:-8% it/s(FP8 → BF16反量化开销)

  • 经典FP8缩放模型 + torch.compile:+11% it/s

  • 此模型:+31% it/s

  • 此模型 + torch.compile:+60% it/s

在5xxx系列GPU上,由于更新的张量核心和更好的FP8支持,速度应更快(尚未测试)。

要使用torch.compile,我推荐使用“ComfyUI-KJNodes”中的torch.compile节点。

然而,关于torch.compile:截至我撰写本文时(2025年11月28日),ComfyUI v0.3.75存在一个小bug,无法对使用张量核心的FP8模型进行torch.compile。该问题已修复,请务必升级至ComfyUI v0.3.76后重试,或暂时切换至master分支。

如果你的GPU不支持FP8张量核心:

无需担心。此模型仍可为你节省约40%的VRAM。


附注:此模型(ComfyUI利用FP8张量核心进行线性计算的方式)与各种注意力优化(如SageAttention等)兼容。但这属于另一个话题。

此模型生成的图像

未找到图像。