Z-Image Turbo [TensorCoreFP8]

詳細

ファイルをダウンロード

モデル説明

はい。40%小さくなり、50%高速化!

これは、最新のComfyUI機能をサポートする新しいFP8スケールチェックポイントです:混合精度、トレーニング後のキャリブレーション、およびFP8テンソルコア対応

このモデルはキャリブレーション済みのメタデータを備えており、ComfyUIはBF16ではなく、対応するハードウェア上で直接FP8計算を実行します。これはBF16や従来のFP8モデル(FP8量子化重みのみを含み、FP8計算は行わない)よりもはるかに高速です(+50% it/s)。

Z-imageについて:https://huggingface.co/Tongyi-MAI/Z-Image-Turbo


簡単に言うと:

混合精度

初期層と最終層は依然としてBF16です。中間層はFP8です。そのため、このモデルは従来のFP8モデルより1GB大きくなります。

トレーニング後のキャリブレーションおよびFP8テンソルコア対応

新しいNVIDIA GPU(おそらくRTX 4xxx以降)をお使いの場合:

これらのGPUはネイティブなFP8計算ハードウェア対応を備えています。このモデルはトレーニング後のキャリブレーション済みメタデータを含んでおり、ComfyUIは自動的にこれらの高性能テンソルコアを活用し、BF16ではなく直接FP8で計算を実行します。

4090でBF16モデルと比較した場合:

  • 従来のFP8スケールモデル:-8% it/s(fp8 → bf16のデキューテン化オーバーヘッド)

  • 従来のFP8スケールモデル + torch.compile:+11% it/s

  • このモデル:+31% it/s

  • このモデル + torch.compile:+60% it/s

5xxx GPUでは、より新しいテンソルコアと優れたFP8対応により、上記よりもさらに高速になります(未検証)。

torch.compileを使用するには、「ComfyUI-KJNodes」のtorch.compileノードをお勧めします。

ただし、torch.compileについて:この文を書いている時点(2025年11月28日)で、ComfyUI v0.3.75には、テンソルコアを使用するFP8モデルをtorch.compileできない小さなバグがあります。このバグはすでに修正済みです。そのため、今後はComfyUI v0.3.76にアップデートして再試行してください。あるいは、現在はmasterブランチに切り替えてください。

ご使用のGPUにFP8テンソルコアがない場合:

問題ありません。このモデルでもVRAMを約40%節約できます。


参考:このモデル(ComfyUIがFP8テンソルコアと線形演算を利用する方法)は、すべてのアテンション最適化(sage attentionなど)と互換性があります。ただし、これは別の話題です。

このモデルで生成された画像

画像が見つかりません。