Flux Dev Q5_K_M GGUF quantization (a nice balance of speed and quality in under 9 gigabytes)
详情
下载文件
模型描述
注意:请忽略列出的模型格式!这不是一个NF4 ONNX模型,而是一个Q5_K_M GGUF模型。
这是一个使用Q5_K_M GGUF格式量化的flux_dev GGUF模型,相较于4位量化,它能显著提升质量,同时比8位版本小得多(并且由于这是一个相对较小的GGUF模型,加载时间也应显著优于FP8)。该模型非常适合中等显存的显卡;在我的测试中(未启用任何内存优化,例如将t5卸载到CPU),它能在16GB显存中舒适运行,甚至可能在8GB显存下也能工作(如果你的显存低于16GB,请测试并留言说明是否可用)。
更新:根据此评论,此量化版本可在8GB显存的系统上运行(感谢@VolatileSupernova的测试与反馈!)
我在配备8GB显存的RTX 3050上使用ComfyUI测试过并确认可用,CLIP-L使用ViT-L-14-TEXT-detail-improved-hiT-GmP-TE-only-HF,T5使用t5-v1_1-xxl-encoder-Q4_K_M。我通常使用Q4_K-S模型,在896x1152分辨率下每轮生成耗时6.4秒;而使用此模型、相同设置仅更换模型后,耗时为7.5秒,变化并不大!这意味着遗憾的是,我无法在你的K_M模型上使用任何LoRA,因为它几乎占满了我的显存,但我宁愿选择更高的画质而非使用LoRA!
编辑:实际上,我可以毫无问题地使用小于20MB的LoRA!
除量化外,此模型是未经任何微调的原始Flux Dev版本,应能与任何适用于完整版或FP8版模型的LoRA兼容。




















