SDXL_fixedvae_fp16(Remove Watermark)

세부 정보

모델 설명

다음에 대한 병합 모델입니다:

  1. 100% stable-diffusion-xl-base-1.0 및 100% stable-diffusion-xl-refine-1.0

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0

  1. sdxl-vae-fp16-fix

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

이를 직접 사용하거나 미세 조정할 수 있습니다.

라이선스는 stable-diffusion-xl-base-1.0과 동일합니다.

VAE 라이선스는 sdxl-vae-fp16-fix와 동일합니다.

SDXL-VAE-FP16-Fix

SDXL-VAE-FP16-Fix는 SDXL VAE를 수정하여 fp16 정밀도로 실행할 수 있도록 하며, NaN을 생성하지 않도록 한 것입니다.

float32 / bfloat16 정밀도에서 디코딩
float16 정밀도에서 디코딩
SDXL-VAE ✅ ⚠️
SDXL-VAE-FP16-Fix ✅

세부 정보

SDXL-VAE는 내부 활성화 값이 너무 커서 fp16에서 NaN을 생성합니다:

SDXL-VAE-FP16-Fix는 SDXL-VAE를 다음과 같이 미세 조정하여 생성되었습니다:

  1. 최종 출력은 동일하게 유지하면서,

  2. 네트워크 내부의 가중치 및 편향을 축소하여

  3. 내부 활성화 값을 줄입니다.

SDXL-VAE-FP16-Fix와 SDXL-VAE의 출력 사이에는 약간의 차이가 있으나, 디코딩된 이미지는 대부분의 용도에 충분히 유사합니다.

여기에서 가져온 벤치마크: Kubuxu

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/discussions/7

COCO val-2017, 256x256, 패딩을 적용한 무작위 크롭 평가
지표:
LPIPS: https://github.com/richzhang/PerceptualSimilarity/ (낮을수록 좋음) 및 skimage.metrics를 통한 구조적 유사도 지수 (높을수록 좋음)
지표는 다음과 같이 제공됨: 평균 [79% 신뢰 구간]

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.