Z-Image Turbo [TensorCoreFP8]

是的。体积缩小40%，速度快50%！

这是一个新的FP8缩放检查点，支持最新的ComfyUI功能：混合精度、训练后校准和FP8张量核心支持。

此模型已校准元数据，ComfyUI将直接在支持的硬件上执行FP8计算，而非BF16，这比BF16和经典FP8模型（仅包含FP8量化权重，无FP8计算）快得多（+50% it/s）。

简而言之：

混合精度：

早期和最终层仍为BF16，中间层为FP8。因此，此模型比经典FP8模型大1GB。

训练后校准与FP8张量核心支持：

如果你拥有较新的NVIDIA显卡（可能是RTX 4xxx及之后型号）：

这些GPU原生支持FP8计算硬件。此模型包含训练后校准的元数据，ComfyUI将自动利用这些先进的张量核心，直接执行FP8计算，而非BF16。

在4090上，与使用BF16模型相比：

在5xxx系列GPU上，由于更新的张量核心和更好的FP8支持，速度应更快（尚未测试）。

要使用torch.compile，我推荐使用“ComfyUI-KJNodes”中的torch.compile节点。

然而，关于torch.compile：截至我撰写本文时（2025年11月28日），ComfyUI v0.3.75存在一个小bug，无法对使用张量核心的FP8模型进行torch.compile。该问题已修复，请务必升级至ComfyUI v0.3.76后重试，或暂时切换至master分支。

如果你的GPU不支持FP8张量核心：

无需担心。此模型仍可为你节省约40%的VRAM。

附注：此模型（ComfyUI利用FP8张量核心进行线性计算的方式）与各种注意力优化（如SageAttention等）兼容。但这属于另一个话题。