Yaoi Diffusion
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
Yaoi Diffusion V3
こんにちはみなさん!!!
768解像度のモデルで、ヤオイ、バラ、ファリュ、s...., s.... c..、フェンアート、リアルな男性を微調整しています。簡単に言うと、一般的な同性愛的なモデルです。
バージョン3で認識できるタグのリストは以下の通りです。
https://gist.github.com/iszotic/0ccac5c804e9587a323fffd4cbbd6c03
プロンプトの使い方:
[短い説明] as [キャラクター] sourcing [コピーライト] by [アーティスト]、[e621/gelbooruのタグをコンマとスペースで区切る]。
ポジティブタグ:by _alter
ネガティブタグ:シンプルな背景
例:
毛皮のドラゴン男性が床に寝そべっている、artist_tagによる作品、1male、男性中心、セルフ、胸筋、陰茎、リアルistic
また、使用されたプロンプトとデモ画像もご確認ください。高解像度はハイレゾフィックスで実現されています。
_otherは、別のスタイルで、通常はセルシェーディング版や簡略化されたスタイルです。
_alterは、代替スタイルで、通常はソフトシェーディング版です。
1boyではなく1male、2boysなら2malesと使い、同様に進めてください。ボイは若者の男性を意味し、マレはキューブ、成人男性、高齢男性、若者、動物、さらには花なども含まれ、より包括的です。
スタイルの混在方法:
スタイルを混ぜるには2通りの方法があります。
- 各ステップで拡散処理がアーティストタグを交換する(auto1111)
by [artist1|artist2|artist3|artist4]
- すべてのタグを同時に使用する:
by artist 4 by artist 3 by artist 2 by artist 1
では最初のアーティストが主導し、特徴がそのアーティストに似る傾向がありますが、混在はより顕著です。Euler a、Euler、DDIMサンプラで動作しますが、品質はよくありません。
では最後のアーティストが主導し、特徴がそのアーティストに似ます。混在が効果的でない場合もあります。どのサンプラでも動作可能で、品質はより良好です。
商業利用について:
特定のスタイルに似ていない限り、問題ありません。
特徴:
同性愛系アーティストの1300以上ものアーティストタグ(自分も含まれます、笑)を用意。3D専門のアーティストに使われるタグは一切使用していません。
NSFWとSFWの両方に対応。
一部のアーティストは複数のスタイルに対応。
トレーニング詳細:
SD1.5 vanilla + vae-ft-mse-840000-ema-pruned.ckptを使用。
データセット: 26万件、エポックサイズ: 14万件、評価済みデータセット: 4千件、評価済みデータセットのドロップアウト確率: 0.5、非評価データセットのドロップアウト確率: 0.0~0.15(https://github.com/LAION-AI/aesthetic-predictorおよびhttps://huggingface.co/cafeai/cafe_aestheticの美意識値による)
画像はbooruサイトから入手し、タグはdeepdanbooruで整理。e621モデルはzach、wd14 swingモデルを使用。booruサイト以外からの画像はタグを予測。タグの順序は5%の確率でランダム化。また、blip2-opt-6.7bも使用。
https://github.com/toriato/stable-diffusion-webui-wd14-tagger
Everydreamertrainer2を使用。勾配チェックポイントは無効化、勾配累積も使用。
データセットの1%を検証用に使用。
トレーニングスケジュール:(まあ、やれやれ)
512解像度時:
エポック1-16:効果的バッチサイズ: 120(12x10)、学習率: 4e-6、EMA: 0.9995
エポック17-19:効果的バッチサイズ: 60(12x5)、学習率: 2e-6、EMA: 0.9997
エポック20-40:効果的バッチサイズ: 12(12x1)、学習率: 5e-7、EMA: 0.9999768解像度時:
エポック40-51:効果的バッチサイズ: 64(4x16)、txt_lr: 1e-6、unet_lr = 2e-6、EMA: 0.9997
エポック52-72:効果的バッチサイズ: 12(4x3)、txt_lr: 3e-7、unet_lr = 6e-7、EMA: 0.9999エポックごとにアーティスト1人あたり最大125枚の画像を使用。アーティストが500枚あったとしても、異なる125枚のセットのみ使用。
ゼロ周波数ノイズ比率 = 0.02
補足情報:
おそらく、SD 1.5用の最終的な微調整モデルになるでしょう。








