Flux Dev Q5_K_M GGUF quantization (a nice balance of speed and quality in under 9 gigabytes)

注意：请忽略列出的模型格式！这不是一个NF4 ONNX模型，而是一个Q5_K_M GGUF模型。

这是一个使用Q5_K_M GGUF格式量化的flux_dev GGUF模型，相较于4位量化，它能显著提升质量，同时比8位版本小得多（并且由于这是一个相对较小的GGUF模型，加载时间也应显著优于FP8）。该模型非常适合中等显存的显卡；在我的测试中（未启用任何内存优化，例如将t5卸载到CPU），它能在16GB显存中舒适运行，甚至可能在8GB显存下也能工作（如果你的显存低于16GB，请测试并留言说明是否可用）。

更新：根据此评论，此量化版本可在8GB显存的系统上运行（感谢@VolatileSupernova的测试与反馈！）

我在配备8GB显存的RTX 3050上使用ComfyUI测试过并确认可用，CLIP-L使用ViT-L-14-TEXT-detail-improved-hiT-GmP-TE-only-HF，T5使用t5-v1_1-xxl-encoder-Q4_K_M。我通常使用Q4_K-S模型，在896x1152分辨率下每轮生成耗时6.4秒；而使用此模型、相同设置仅更换模型后，耗时为7.5秒，变化并不大！这意味着遗憾的是，我无法在你的K_M模型上使用任何LoRA，因为它几乎占满了我的显存，但我宁愿选择更高的画质而非使用LoRA！

编辑：实际上，我可以毫无问题地使用小于20MB的LoRA！

除量化外，此模型是未经任何微调的原始Flux Dev版本，应能与任何适用于完整版或FP8版模型的LoRA兼容。

模型类型	检查点
基础模型	Flux.1 D
发布时间	9/2/2024

Flux Dev Q5_K_M GGUF quantization (a nice balance of speed and quality in under 9 gigabytes)

详情

下载文件

模型描述

此模型生成的图像