SDXL_fixedvae_fp16(Remove Watermark)

詳細

ファイルをダウンロード

モデル説明

これは以下のモデルをマージしたものです:

  1. 100% stable-diffusion-xl-base-1.0 と 100% stable-diffusion-xl-refine-1.0

https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0

https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-1.0

  1. sdxl-vae-fp16-fix

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix

これを直接使用するか、微調整することもできます。

ライセンスは stable-diffusion-xl-base-1.0 と同じです。

VAEのライセンスは sdxl-vae-fp16-fix と同じです。

SDXL-VAE-FP16-Fix

SDXL-VAE-FP16-Fix は、SDXL VAE を、NaNを生成せずに fp16 精度で動作するように修正したものです。

VAEデコードの精度
float32 / bfloat16 精度 | float16 精度
SDXL-VAE | ✅ | ⚠️
|
SDXL-VAE-FP16-Fix | ✅ | ✅
|

詳細

SDXL-VAE は、内部の活性化値が大きすぎるため、fp16 精度で NaN を生成します:

SDXL-VAE-FP16-Fix は、SDXL-VAE を微調整して以下の点を実現したものです:

  1. 最終出力は同じままにし、
  2. ネットワーク内の重みとバイアスをスケールダウンすることで、
  3. 内部の活性化値を小さくする

SDXL-VAE-FP16-Fix と SDXL-VAE の出力にはわずかな差異がありますが、デコードされた画像はほとんどの用途で十分近いレベルです。

ベンチマーク(こちら より):by Kubuxu

https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/discussions/7

COCO val-2017、256x256、パディング付きランダムクロップでの評価
指標:
LPIPS:https://github.com/richzhang/PerceptualSimilarity/ (値が小さいほど良い)
構造類似度指数(SSIM):skimage.metrics を使用(値が大きいほど良い)
指標は:平均 [79% 信頼区間] で表示

このモデルで生成された画像

画像が見つかりません。