SDXL_fixedvae_fp16(Remove Watermark)
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
これは以下のモデルをマージしたものです:
- 100% stable-diffusion-xl-base-1.0 と 100% stable-diffusion-xl-refine-1.0
https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0
https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0
- sdxl-vae-fp16-fix
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix
これを直接使用するか、微調整することもできます。
ライセンスは stable-diffusion-xl-base-1.0 と同じです。
VAEのライセンスは sdxl-vae-fp16-fix と同じです。
SDXL-VAE-FP16-Fix
SDXL-VAE-FP16-Fix は、SDXL VAE を、NaNを生成せずに fp16 精度で動作するように修正したものです。
VAEデコードの精度float32 / bfloat16 精度 | float16 精度
SDXL-VAE | ✅ | ⚠️
| 
SDXL-VAE-FP16-Fix | ✅ | ✅
| 
詳細
SDXL-VAE は、内部の活性化値が大きすぎるため、fp16 精度で NaN を生成します:

SDXL-VAE-FP16-Fix は、SDXL-VAE を微調整して以下の点を実現したものです:
- 最終出力は同じままにし、
- ネットワーク内の重みとバイアスをスケールダウンすることで、
- 内部の活性化値を小さくする
SDXL-VAE-FP16-Fix と SDXL-VAE の出力にはわずかな差異がありますが、デコードされた画像はほとんどの用途で十分近いレベルです。
ベンチマーク(こちら より):by Kubuxu
https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/discussions/7
COCO val-2017、256x256、パディング付きランダムクロップでの評価
指標:
LPIPS:https://github.com/richzhang/PerceptualSimilarity/ (値が小さいほど良い)
構造類似度指数(SSIM):skimage.metrics を使用(値が大きいほど良い)
指標は:平均 [79% 信頼区間] で表示





