Flux ブロック単位（混合精度モデル）

混合精度モデルを実現するために、私は複数のカスタムツールを自作しました。私の知る限り、このような構成のモデルは他に存在しません。

現在利用可能な他のすべてのFP8量子化モデルよりも高速で正確
ComfyとForgeで動作しますが、ForgeではBF16 UNETに設定する必要があります
Comfyではディフューザーモデルとして読み込み、デフォルトの重みを使用してください
FP16へのアップキャストは、CPUまたはIPEXで実行するなど、絶対に必要な場合にのみ使用してください
FORGE - COMMANDLINE_ARGS= --unet-in-bf16 --vae-in-fp32 と設定してください
ForgeをBF16に強制する必要がある以外（オプションでFP32 VAE）、フルBF16モデルよりも5GB小さいという追加の利点があり、DEVモデルと同様に動作します

これまでの私の知る限り、私を含めたすべての量子化モデルは、Blackforestの推奨に従って最適に構築されていません。

ディフューザーモデルでは、UNetブロックのみを量子化するべきであり、またBF16にアップキャストすべきで、FP16にすべきではありません（Comfyは正しくこれを実行しています）。

現在、Blackforestの推奨に従いながらGGUFを使用する方法を模索しています。

Flux Blockwise