Flux Dev Q5_K_M GGUF quantization (a nice balance of speed and quality in under 9 gigabytes)

세부 정보

모델 설명

참고: 나열된 모델 형식은 무시하세요! 이는 NF4 ONNX 모델이 아니라 Q5_K_M GGUF 모델입니다.

이것은 Flux Dev를 Q5_K_M GGUF 형식으로 양자화한 GGUF 모델로, 4비트 양자화보다 훨씬 뛰어난 품질을 제공하면서도 8비트 버전에 비해 훨씬 작습니다(또한 상대적으로 작은 GGUF이므로 FP8에 비해 로드 시간도 크게 단축됩니다). 이 모델은 중간 규모의 그래픽 카드에 이상적이며, 제 테스트에서는(=T5를 CPU에 오프로딩하는 등의 메모리 최적화 없이) 16GB VRAM에 안정적으로 적합하며, 최소 8GB VRAM에서도 작동할 수 있습니다(VRAM이 16GB 미만이라면 테스트해보고 작동 여부를 댓글로 남겨주세요).

업데이트: 이 양자화 버전은 8GB VRAM을 가진 시스템에서도 작동합니다!(@VolatileSupernova님의 테스트와 응답에 감사드립니다!)

ViT-L-14-TEXT-detail-improved-hiT-GmP-TE-only-HF를 CLIP-L로, t5-v1_1-xxl-encoder-Q4_K_M를 T5로 사용하여, 제 RTX 3050(8GB VRAM)에서 ComfyUI에서 테스트하고 작동 확인했습니다. 보통 Q4_K-S 모델을 사용하면 896x1152 해상도에서 1회 반복당 6.4초에 이미지를 생성하는데, 이 모델로 동일한 설정을 사용하면 7.5초가 걸립니다. 전혀 큰 차이가 없어요! 하지만 안타깝게도 이 K_M 모델은 VRAM이 거의 한계까지 차지하기 때문에 LoRA를 사용할 수 없습니다. 하지만 저는 LoRA보다 더 높은 품질을 선택하겠습니다!

편집: 사실 20MB 미만의 LoRA는 문제 없이 사용할 수 있습니다!

양자화되었을 뿐, 이 모델은 어떤 미세 조정도 없이 원본 Flux Dev의 수정되지 않은 버전입니다. 이 모델은 전체 크기 또는 FP8 버전과 호환되는 모든 LoRA와 잘 작동합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.