Yaoi Diffusion

詳細

ファイルをダウンロード

モデル説明

Yaoi Diffusion V3

こんにちはみなさん!!!

768解像度のモデルで、ヤオイ、バラ、ファリュ、s...., s.... c..、フェンアート、リアルな男性を微調整しています。簡単に言うと、一般的な同性愛的なモデルです。
バージョン3で認識できるタグのリストは以下の通りです。

https://gist.github.com/iszotic/0ccac5c804e9587a323fffd4cbbd6c03

プロンプトの使い方:

[短い説明] as [キャラクター] sourcing [コピーライト] by [アーティスト]、[e621/gelbooruのタグをコンマとスペースで区切る]。

ポジティブタグ:by _alter

ネガティブタグ:シンプルな背景

例:
毛皮のドラゴン男性が床に寝そべっている、artist_tagによる作品、1male、男性中心、セルフ、胸筋、陰茎、リアルistic

また、使用されたプロンプトとデモ画像もご確認ください。高解像度はハイレゾフィックスで実現されています。

_otherは、別のスタイルで、通常はセルシェーディング版や簡略化されたスタイルです。

_alterは、代替スタイルで、通常はソフトシェーディング版です。

1boyではなく1male、2boysなら2malesと使い、同様に進めてください。ボイは若者の男性を意味し、マレはキューブ、成人男性、高齢男性、若者、動物、さらには花なども含まれ、より包括的です。

スタイルの混在方法:

スタイルを混ぜるには2通りの方法があります。

  1. 各ステップで拡散処理がアーティストタグを交換する(auto1111)

by [artist1|artist2|artist3|artist4]

  1. すべてのタグを同時に使用する:

by artist 4 by artist 3 by artist 2 by artist 1

  1. では最初のアーティストが主導し、特徴がそのアーティストに似る傾向がありますが、混在はより顕著です。Euler a、Euler、DDIMサンプラで動作しますが、品質はよくありません。

  2. では最後のアーティストが主導し、特徴がそのアーティストに似ます。混在が効果的でない場合もあります。どのサンプラでも動作可能で、品質はより良好です。

商業利用について:
特定のスタイルに似ていない限り、問題ありません。

特徴:

  • 同性愛系アーティストの1300以上ものアーティストタグ(自分も含まれます、笑)を用意。3D専門のアーティストに使われるタグは一切使用していません。

  • NSFWとSFWの両方に対応。

  • 一部のアーティストは複数のスタイルに対応。

トレーニング詳細:

  • SD1.5 vanilla + vae-ft-mse-840000-ema-pruned.ckptを使用。

    https://huggingface.co/runwayml/stable-diffusion-v1-5

    https://huggingface.co/stabilityai/sd-vae-ft-mse-original

  • データセット: 26万件、エポックサイズ: 14万件、評価済みデータセット: 4千件、評価済みデータセットのドロップアウト確率: 0.5、非評価データセットのドロップアウト確率: 0.0~0.15(https://github.com/LAION-AI/aesthetic-predictorおよびhttps://huggingface.co/cafeai/cafe_aestheticの美意識値による)

  • 画像はbooruサイトから入手し、タグはdeepdanbooruで整理。e621モデルはzach、wd14 swingモデルを使用。booruサイト以外からの画像はタグを予測。タグの順序は5%の確率でランダム化。また、blip2-opt-6.7bも使用。

    https://github.com/toriato/stable-diffusion-webui-wd14-tagger

    https://huggingface.co/Salesforce/blip2-opt-6.7b

  • Everydreamertrainer2を使用。勾配チェックポイントは無効化、勾配累積も使用。

  • データセットの1%を検証用に使用。

  • トレーニングスケジュール:(まあ、やれやれ)
    512解像度時:
    エポック1-16:効果的バッチサイズ: 120(12x10)、学習率: 4e-6、EMA: 0.9995
    エポック17-19:効果的バッチサイズ: 60(12x5)、学習率: 2e-6、EMA: 0.9997
    エポック20-40:効果的バッチサイズ: 12(12x1)、学習率: 5e-7、EMA: 0.9999

    768解像度時:
    エポック40-51:効果的バッチサイズ: 64(4x16)、txt_lr: 1e-6、unet_lr = 2e-6、EMA: 0.9997
    エポック52-72:効果的バッチサイズ: 12(4x3)、txt_lr: 3e-7、unet_lr = 6e-7、EMA: 0.9999

  • エポックごとにアーティスト1人あたり最大125枚の画像を使用。アーティストが500枚あったとしても、異なる125枚のセットのみ使用。

  • ゼロ周波数ノイズ比率 = 0.02

補足情報:
おそらく、SD 1.5用の最終的な微調整モデルになるでしょう。

このモデルで生成された画像

画像が見つかりません。