Z-Image Turbo [TensorCoreFP8]
詳細
ファイルをダウンロード
モデル説明
はい。40%小さくなり、50%高速化!
これは、最新のComfyUI機能をサポートする新しいFP8スケールチェックポイントです:混合精度、トレーニング後のキャリブレーション、およびFP8テンソルコア対応。
このモデルはキャリブレーション済みのメタデータを備えており、ComfyUIはBF16ではなく、対応するハードウェア上で直接FP8計算を実行します。これはBF16や従来のFP8モデル(FP8量子化重みのみを含み、FP8計算は行わない)よりもはるかに高速です(+50% it/s)。
Z-imageについて:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo
簡単に言うと:
混合精度:
初期層と最終層は依然としてBF16です。中間層はFP8です。そのため、このモデルは従来のFP8モデルより1GB大きくなります。
トレーニング後のキャリブレーションおよびFP8テンソルコア対応:
新しいNVIDIA GPU(おそらくRTX 4xxx以降)をお使いの場合:
これらのGPUはネイティブなFP8計算ハードウェア対応を備えています。このモデルはトレーニング後のキャリブレーション済みメタデータを含んでおり、ComfyUIは自動的にこれらの高性能テンソルコアを活用し、BF16ではなく直接FP8で計算を実行します。
4090でBF16モデルと比較した場合:
従来のFP8スケールモデル:-8% it/s(fp8 → bf16のデキューテン化オーバーヘッド)
従来のFP8スケールモデル + torch.compile:+11% it/s
このモデル:+31% it/s
このモデル + torch.compile:+60% it/s
5xxx GPUでは、より新しいテンソルコアと優れたFP8対応により、上記よりもさらに高速になります(未検証)。
torch.compileを使用するには、「ComfyUI-KJNodes」のtorch.compileノードをお勧めします。
ただし、torch.compileについて:この文を書いている時点(2025年11月28日)で、ComfyUI v0.3.75には、テンソルコアを使用するFP8モデルをtorch.compileできない小さなバグがあります。このバグはすでに修正済みです。そのため、今後はComfyUI v0.3.76にアップデートして再試行してください。あるいは、現在はmasterブランチに切り替えてください。
ご使用のGPUにFP8テンソルコアがない場合:
問題ありません。このモデルでもVRAMを約40%節約できます。
参考:このモデル(ComfyUIがFP8テンソルコアと線形演算を利用する方法)は、すべてのアテンション最適化(sage attentionなど)と互換性があります。ただし、これは別の話題です。



