Flux 블록별(혼합 정밀도 모델)

혼합 정밀도 모델을 구현하기 위해 여러 맞춤 도구를 개발해야 했으며, 제 지각 범위 내에서 이와 같이 구성된 모델은 처음입니다.

현재 이용 가능한 다른 모든 FP8 양자화 모델보다 빠르고 정확함
Comfy와 Forge에서 작동하지만, Forge는 BF16 UNET로 설정해야 함
Comfy에서는 디퓨저 모델로 로드 시 기본 가중치 사용
FP16 업캐스팅은 CPU 또는 IPEX 실행과 같은 절대적인 경우를 제외하고 사용하지 않음
FORGE - COMMANDLINE_ARGS= --unet-in-bf16 --vae-in-fp32 설정
Forge를 BF16(선택적으로 FP32 VAE)으로 강제 설정하는 것 외에는, 전체 BF16 모델보다 5GB 작아진 이점과 함께 DEV 모델과 동일하게 작동함

현재까지 제 지식에 따르면, 제가 포함해 모든 양자화 모델은 블랙포레스트의 권장 사항에 따라 비최적화 방식으로 구축되었습니다.

디퓨저 모델에서는 UNET 블록만 양자화되어야 하며, 또한 FP16이 아닌 BF16으로 업캐스팅되어야 합니다(Comfy는 이를 올바르게 수행함).

현재 블랙포레스트의 권장 사항을 따르면서 GGUF를 사용하는 방법을 모색 중입니다.

Flux Blockwise