Waifu Diffusion - Beta 03

詳細

ファイルをダウンロード

モデル説明

Waifu Diffusion - Beta 03

Hugging Face から再アップロードし、楽しみのために CivitAI に掲載。

WD 1.5 Beta 3 は、stable-diffusion-2-1 (768) から直接微調整されたもので、v-prediction と可変アスペクト比バケット化(最大ピクセル面積 896x896)を使用。実写画像とアニメ画像を用いて学習。WD 1.5 のカバー範囲が広いため、今後の微調整、LoRA、その他の埋め込みアプリケーションの最適な基盤となると期待しています。 - [Notion.site]

作者のコメント

モデルはとても良い。NAIが初めて登場したときのように考えてください。微調整の始まりとしてはとても良い選択肢ですよね?WD 1.5 B3 ならそれがすぐにできるんです。 - KaraKaraWitch

アイテイティックモデル?

後ほどアップロード予定。

インストール

  1. 3つのファイルをダウンロード。

  2. SD 2.1 をインストールするのと同じ方法で。

  3. マジックソース VAE を使用。

うまくいかない場合は……うーん、ググって自分で考えた方法でやってみてくださいか?これ could 有効かも。

使い方

以下のような「マスタリング」プロンプトを使用することで、より良い結果が得られます。

ポジティブプロンプト:

(exceptional, best aesthetic, new, newest, best quality, masterpiece, extremely detailed, anime, waifu:1.2)

ネガティブプロンプト:

lowres, ((bad anatomy)), ((bad hands)), missing finger, extra digits, fewer digits, blurry, ((mutated hands and fingers)), (poorly drawn face), ((mutation)), ((deformed face)), (ugly), ((bad proportions)), ((extra limbs)), extra face, (double head), (extra head), ((extra feet)), monster, logo, cropped, worst quality, jpeg, humpbacked, long body, long neck, ((jpeg artifacts)), deleted, old, oldest, ((censored)), ((bad aesthetic)), (mosaic censoring, bar censor, blur censor)

これで何ができる?

このモデルは以下のことが可能:

- 実写 (realistic, real life:1.2) をポジティブプロンプトに。

- セクシーな(典型的なスタイル。微調整があればさらに良いかもしれないですね。)

- あなたが微調整したいものなら何でも。

- 微調整もそれほど難しくありません。LoRA(Kohya用)と LyCORS(Tested LoCon で動作確認済み)が有効です。

何か新しい点は?

  • テキストエンコーダー学習を修正。TE が本格的に学習された状態になりました。Beta 2 からの移行ユーザーはぜひ試してみてください。

ライセンス(License)

いわゆる「複雑」です。

要するに:Fair AI Public License 1.0-SD を守ってください(https://freedevproject.org/faipl-1.0-sd/)。このモデルをもとにした派生モデルを作成した場合は、変更内容を共有してください。ライセンス作成のサポートをしてくれた ronsor/undeleted (https://undeleted.ronsor.com/) に特別感謝。

これってCivitAIの精神とちょっと反する気もしますが、まあいいでしょう。ふふ。

ドラッグ・ワイフ・ディフュージョンのトレーニング方法

  1. BLIP/BLIP2 と WD Tagger を使って、各画像に対してBooruタグと自然言語キャプションを付与する。

  2. Date gradient を適用する。

  3. 𝒜𝑒𝓈𝓉𝒽𝑒𝓉𝒾𝒸 アイテイティック を Exceptional, Best, Normal & Bad に分類。

  4. Booru画像にスターを追加し、上記に分類する。(Masterpiece, Best, High, Medium, Normal, Low & Worst)

  5. トレーニング実施。

  6. ???

  7. プロフィット。

LyCORS/LoCon/LoRA トレーニング方法

KaraKaraWitchです。WD 1.5 B3 の初期実行結果とよくある落とし穴について、いくつかコメントします。

  1. 提供された VAE を使用。組み込みモデルの VAE は使用しないでください。

  2. --v2--v_parameterization を有効にする。

  3. 普通の手順でトレーニング。

「え、これだけ?」

はい。ただ、最終的な損失値は約0.3を維持するようにしましょう。0.29以下になると、過学習の兆候かもしれません。

「Amongus sus」

まあ、私はいくつかのスタイルしか試してませんが、そんな感じで動きましたよ…

なんで fp32 バージョンがないの?!

開発者によると、fp16 と fp32 を使い分けても品質に顕著な違いは見られない(xformers などのメモリ最適化を使用する場合を除き、それらは fp32 で保存するよりも大きな問題を引き起こす可能性があります)。

Diffusers 形式で使いたい!(Diffused にしたい!)

盐がHFにアップロードするのを待てばいいだけです。ふふ

ということは、このモデルのポイントって何ですか?

冒頭に言った通り:

> NAIが初めて登場したときのように考えてください。微調整のスタートとしてとても良いでしょう?WD 1.5 B3 ならそのまま使えます。

ぜひ、微調整やLoCoN/LoRAを試してみてください!

このモデルで生成された画像

画像が見つかりません。