vae-teding-aliased-2024-03
詳細
ファイルをダウンロード
モデル説明
https://huggingface.co/thomaseding/vae-teding-aliased-2024-03
(このVAEを私のPixelNetモデルと組み合わせて使用する場合は、幅と高さがそれぞれ8の倍数であるチェック柄を使用してください。)
このVAEデコーダーは、デコーダー出力をエイリアシングすることで、より良いピクセルアート生成を実現するためにStable Diffusion 1.5をファインチューニングしたものです。このVAEの品質は、ピクセルアートモデルが8の倍数の「タイル」で訓練されていることに依存します。そうでない場合、縫い目のようなアーチファクトが発生します。
ファインチューニングは、有効バッチサイズ12で5万枚の画像を1エポック学習して行いました。画像は事前に前処理し、各8x8タイルを平均色に量子化しました。RTX3090では、このファインチューニングに約4時間かかりました。学習率1e-5でMSE損失のみを使用しました。トレーニングデータセットは、他のStable Diffusionモデルから生成され、主にカートゥーン風の画像でした。

