Flux Dev Q5_K_M GGUF quantization (a nice balance of speed and quality in under 9 gigabytes)

詳細

ファイルをダウンロード

モデル説明

注:列記されているモデル形式は無視してください!これはNF4 ONNXモデルではなく、Q5_K_M GGUFモデルです。

これはFlux_devをQ5_K_M GGUF形式で量子化したGGUFモデルで、4ビット量子化と比べて品質が大幅に向上し、8ビットバージョンよりもはるかに小さいサイズです(また、GGUFが比較的小さいため、FP8と比べてロード時間も大幅に短縮されます)。このモデルは中規模のグラフィックカードに最適で、私のテスト環境(T5をCPUにオフロードするようなメモリ最適化を一切使用しない状態)では16GBのVRAMに余裕を持って収まり、8GBのVRAMでも動作する可能性があります(VRAMが16GB未満の場合は、実際にテストして動作したかどうかをコメントでお知らせください)。

アップデート:この量子化モデルはVRAMが8GBのシステムでも動作することが確認されました(@VolatileSupernovaさんのテストとご報告に感謝します!)

Tested and working in ComfyUI on my RTX 3050 with 8GB VRAM using ViT-L-14-TEXT-detail-improved-hiT-GmP-TE-only-HF for CLIP-L and t5-v1_1-xxl-encoder-Q4_K_M for T5. I usually use the Q4_K-S model which gives me images in 6.4 seconds per iteration at 896x1152 resolution, this model with the same settings and only the model changed gives me them in 7.5 seconds, not a big change at all! It does mean that unfortunately I can't use any Loras with your K_M model since it just barely fits in my VRAM but I'd rather have the higher quality than use Loras!

EDIT: I can actually use the less than 20MB Loras without issue!

このモデルは、量子化されている以外は、Flux Devの修正されていないオリジナルバージョンであり、一切のファインチューニングは施されていません。フルサイズまたはFP8バージョンのモデルと互換性のあるどのLoRAとも問題なく動作します。

このモデルで生成された画像

画像が見つかりません。