vae-teding-aliased-2024-03

詳細

ファイルをダウンロード

モデル説明

https://huggingface.co/thomaseding/vae-teding-aliased-2024-03

(このVAEを私のPixelNetモデルと組み合わせて使用する場合は、幅と高さがそれぞれ8の倍数であるチェック柄を使用してください。)

このVAEデコーダーは、デコーダー出力をエイリアシングすることで、より良いピクセルアート生成を実現するためにStable Diffusion 1.5をファインチューニングしたものです。このVAEの品質は、ピクセルアートモデルが8の倍数の「タイル」で訓練されていることに依存します。そうでない場合、縫い目のようなアーチファクトが発生します。

ファインチューニングは、有効バッチサイズ12で5万枚の画像を1エポック学習して行いました。画像は事前に前処理し、各8x8タイルを平均色に量子化しました。RTX3090では、このファインチューニングに約4時間かかりました。学習率1e-5でMSE損失のみを使用しました。トレーニングデータセットは、他のStable Diffusionモデルから生成され、主にカートゥーン風の画像でした。

このモデルで生成された画像

画像が見つかりません。