SDXL_fixedvae_fp16(Remove Watermark)
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
다음에 대한 병합 모델입니다:
- 100% stable-diffusion-xl-base-1.0 및 100% stable-diffusion-xl-refine-1.0
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0
- sdxl-vae-fp16-fix
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
이를 직접 사용하거나 미세 조정할 수 있습니다.
라이선스는 stable-diffusion-xl-base-1.0과 동일합니다.
VAE 라이선스는 sdxl-vae-fp16-fix와 동일합니다.
SDXL-VAE-FP16-Fix
SDXL-VAE-FP16-Fix는 SDXL VAE를 수정하여 fp16 정밀도로 실행할 수 있도록 하며, NaN을 생성하지 않도록 한 것입니다.
float32 / bfloat16 정밀도에서 디코딩
float16 정밀도에서 디코딩
SDXL-VAE ✅
⚠️ 
SDXL-VAE-FP16-Fix ✅
✅ 
세부 정보
SDXL-VAE는 내부 활성화 값이 너무 커서 fp16에서 NaN을 생성합니다:

SDXL-VAE-FP16-Fix는 SDXL-VAE를 다음과 같이 미세 조정하여 생성되었습니다:
최종 출력은 동일하게 유지하면서,
네트워크 내부의 가중치 및 편향을 축소하여
내부 활성화 값을 줄입니다.
SDXL-VAE-FP16-Fix와 SDXL-VAE의 출력 사이에는 약간의 차이가 있으나, 디코딩된 이미지는 대부분의 용도에 충분히 유사합니다.
여기에서 가져온 벤치마크: Kubuxu
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/discussions/7
COCO val-2017, 256x256, 패딩을 적용한 무작위 크롭 평가
지표:
LPIPS: https://github.com/richzhang/PerceptualSimilarity/ (낮을수록 좋음) 및 skimage.metrics를 통한 구조적 유사도 지수 (높을수록 좋음)
지표는 다음과 같이 제공됨: 평균 [79% 신뢰 구간]





