playground-v2-512px-base-anime-finetune

詳細

モデル説明

playground-v2-512px-base-anime-finetune

■これは実験的なファインチューニングです。

onetrainerを使用してトレーニングしました。

このファインチューニングは、主にアニメ画像を含むが、一部リアルおよびAI画像も含まれる10万枚の画像データセットを用いて行いました。トレーニング解像度は512pxです。

皆様にplayground v2 512px baseの可能性を共有したいと思います。

SDXLと同様なので、ダウンロードしてすぐに使用できます。

このモデルの利点は512pxである点です。SDXLアーキテクチャをトレーニングしたいが、VRAM不足などの問題がある方には理想的だと考えました。

1024pxの生成サイズが大きすぎる、または512pxで生成したいが、SDXLアーキテクチャを使いたい方にとって、このモデルは良い選択肢になるかもしれません。

ファインチューニングは512pxで行われています。利点として、1024pxのデータセットを準備する必要がありません。これまでSD1.5で使用していたデータセットをそのまま使えるため、負担が少ないです。トレーニング時間も短縮できます。

1024pxはトレーニング時間、キャッシュ時間、キャッシュ容量、VRAM、ハードディスクなどを大幅に消費します。

512pxは1024pxより4倍速いです。計算が間違っていたら申し訳ありませんが、低解像度でもSDXLアーキテクチャの恩恵を受けられ、学習が速く、楽しいです。

このモデルには可能性があるかもしれません。

私の願いは、多くの人が潜在能力を持つベースモデルを見つけ、その可能性をさらに広げてほしいということです。それが実現できる手助けができれば、とても嬉しいです。

■性的な画像も生成される可能性があるため、ご注意ください。

リアルまたはAI風の外観が強く出る場合があります。

ネガティブプロンプトに「realistic」を追加すると良いかもしれません。

「blush」というタグはアニメスタイルを強制するのに効果的かもしれません。

これは非常に強いタグなので、文頭に置くと過剰になる可能性があります。

一方で、アニメ以外のスタイルを試すのも楽しいかもしれません。

元々意図しなかった領域で新たな発見が生まれることがあります。

完璧さを過剰に期待しないでください。このモデルはまだ未熟です。失敗した結果の方が面白いことがあります!

タグ自動生成ツールを使って、さまざまなタグを生成してみるのも面白いでしょう。

■このモデルの標準解像度は512pxです。

SD1.5のように512x768のようなアスペクト比が適しています。

768pxや1024pxはトレーニングされていないため、結果はひどいものになります。

i2iで大きなサイズを設定すると失敗します。

限界は1.5倍の倍率、denoise 0.5程度です。

私はdpmpp_sde step:12 cfg:3-5が好きです。Euler aも安定して良いです。生成速度も速くなります。

i2iではcfgを好きなだけ上げられます。cfg15付近ではコントラストとディテールがより顕著になります。

■アニメスタイルを強制するLoRAを追加しました。

詳細はLoRAタブをご覧ください。

最近のテスト結果もそこに記載しています。

推論に慣れ始めました!

ComfyUIワークフローも更新しました。

■Animagine-xl-3.1のテキストエンコーダー0.4をv0.0_aestheticにマージしたモデルを追加しました。

詳細な説明はv0.0_aesthetic_TEタブに記載しています。

非常に実験的なため、自信を持っておすすめはできませんが、興味があればぜひお試しください!

頑張れば、アニメキャラに少し似た人物を生成できるようになります。サンプル画像のキャラクターは誰に似ているでしょうか?一生懸命やりました。LOL!

キャラクターはファインチューニングしていないので、期待しすぎないでください!

ギターや剣を手に持つ人物を生成できるとは思いませんでした…

他にも何か生成できるかもしれません。

Animagineのタグルールも効果的かもしれません…?

■安定した品質を持つマージモデルを追加しました。

playground-v2-1024px-aestheticと事前トレーニングモデルの差分を抽出し、+0.5でマージしました。

512px以外も、i2iでの拡大時に安定性が向上するよう改善されています。

スタイルやタグ認識率は変化しますが、審美性も強化されているため、オリジナルモデルが使いにくいと感じた方はこちらをお勧めします。

cfgが3付近でも問題ありません。色が暗い場合は値を下げてください。

想像以上に楽しいです。

性的な内容については、オリジナルモデルの方が反応しやすいです。

ご自身で理想的な組み合わせを探してみるのも楽しいでしょう。

画像はややぼやけることがあり、アップスケーリングやその他の手段でシャープネスを調整する必要があるかもしれません。

サンプル画像には剣を持った画像もあります。このようなものが生成できるとは思いませんでした…

場合によっては、786x1152pxのような画像も正常に生成できました。

↓このような段階的な推論が効果的かもしれません。

  1. 512x768pxでプロンプトを試し、コンセプトを固める。

  2. 768x1152pxでより良い構図と人体を生成する。

  3. i2iでディテールを改善する。

■スタイルの一貫性はありません。品質は低く、固定された設定やプロンプトもありません。

既存のモデルと比べて利点がなく、データセットも限定的です。

利点は軽量であることです。

他に利点に気づかれた方は、ぜひ教えてください。

■私はdanbooruタグでトレーニングしています。

ごく少数のタグではひどい結果が出ます。danbooruやSDでよく使われるタグが、このモデルの品質タグです。

「1girl」などの一般的なタグのみを学習しており、アーティストやアニメ作品のタグはトレーニングしていません。

今後のトレーニングでどのようなデータセットがほしいか、ご意見をいただけたら嬉しいです。

タグの順序は重要です。各タグには独自の画像が対応しています。

人気の高いタグほど品質が向上する可能性がありますが、画像への反映が強くなるため、他のタグで補正したり、順序を変えて薄めることも効果的です。

効果が強すぎると感じたら、重みを下げてみるのも良いでしょう。

「視線を向ける」「上半身」「光沢のある肌」などは、簡単に高品質になります。

「nsfw」タグは追加せずにトレーニングしていますが、なぜか効果があるように感じます…

■不完全で非常に難しいモデルですが、興味があればぜひお試しください。プロンプトにはあまり得意ではありませんが、面白い結果が生成できたら、ぜひ共有してください。そうすればこのモデルをさらに強化できます。

皆さんのフィードバックが、より広範なデータセットでトレーニングする原動力になります。

まだ学習していないタグもたくさんあるため、より多様な表現が可能になるでしょう。

■私が推論テストで使っているComfyUIワークフローを追加しました。

使っているソフトウェアは問いません。さまざまなソフトで試してみてください!

■SDXL U-Netとのマージは失敗します。マージ方法があれば、教えていただけると助かります。

マージできれば、他の優れたSDXLモデルの恩恵を受けられます!

SDXLとは重みが異なるため、互換性は基本的にありませんが、組み合わせる方法を見つけるのは楽しいと思います。

他のplaygroundとマージできる可能性もあります。それも面白いでしょう。

異なるモデルをマージして化学反応が起きたら、ぜひ共有してください!

リアルでもアニメでも構いません。

■他のplayground_v2との差分マージ用に、トレーニング元となるplayground-v2-512px-baseモデルを追加しました。

「v0.0_base」タブにアップロードしましたので、そちらをご確認ください。

これにより、他のplayground_v2 1024pxの審美性トレーニング+ファインチューニング重みを差分抽出できます。+1.0で追加・マージすれば、512pxベースが1024pxと一致します。+0.5では中間的な結果となり、広範囲で調整可能です。逆に、私のモデルとの差分を取れば、私のファインチューニング結果のみ抽出でき、それを他のplayground_v2 1024pxに追加・マージできます。様々な組み合わせが可能で、とても楽しいです。

LoRAはSDXLと同様にトレーニングできると思います。

まだ不明な点が多く、詳細な説明は控えますが、ポジティブな反応があれば、できる限り情報を共有したいと思います。

■ファインチューニング用にfloat32チェックポイントとdiffuserモデルを追加しました。トレーニング設定はdiffuserモデルに同梱されているonetrainer_configです。

「v0.0_base」タブにアップロードしましたので、そちらをご確認ください。

U-Netとテキストエンコーダーの両方をファインチューニングしています。

使用しているトレーニングツールがSDXLをサポートしていれば、問題なくトレーニングできます。不安な場合は、私が使ったonetrainerの方が安心できます。

このモデルのトレーニングは、512pxでも非常に良く学習するため、とても楽しいです。

playground-v2-512px-baseは、審美性ファインチューニング前のSDXLモデルで、トレーニング途中のものです。

通常では得られない非常に珍しいアイテムです。無限の可能性があります。

このモデルを出発点として、ご自身の目的に合わせた専用モデルを作成できるかもしれません。

私は素晴らしいキャンパスの少し不満な画像しか描けませんでしたが、それに加筆すれば素晴らしい画像になります。

私の夢は、512pxのような低解像度で生成可能なSDXLモデルがもっと増えることです!

さらに、512pxトレーニングを追加して、低コストでコンセプトを強化するのも楽しいでしょう。あるいは、384px+768pxを追加してマルチレゾリューショントレーニングを行うことで、512pxを保ちつつ、低解像度と高解像度の両方に柔軟に対応し、アップスケーリングの失敗を減らし、より細かいディテールやコンセプトを記憶しやすくなるでしょう。

トレーニング中のサンプル画像の品質が低くても問題ありません。実際に推論し、タグを自動生成してみたところ、驚くほど良く動作しました。トレーニングが失敗せず、ノイズにならなければ問題ありません。

トレーニング結果が悪くても、他のモデルとマージすれば、512px_base以降でトレーニングされた存在しない審美要素が追加され、高解像度の表現力が強化されるため、想像を超える画像を生成できます!

トレーニング前に「animagine」や「pony」などのSDXLテキストエンコーダーに置き換えてからトレーニングするのも面白いかもしれません。

テキストエンコーダーはすでにキャラクターやdanbooruタグを学習済みです。U-Netをトレーニングするだけで十分です。

また、0.5の割合でテキストエンコーダーをマージして両方の特性を保持しつつ、さらにトレーニングするのも良いかもしれません。

私はCivitAIの新米ですので、ご意見があればぜひ教えてください。

皆さんの反応は、私の原動力です。m(_ _)m

総ダウンロード数が300を超えました。未熟な私のモデルにご関心いただき、ありがとうございます!多くの方に高評価していただき、本当に感謝します。m(_ _)m

■ファインチューニングに使用した優れた事前トレーニングモデル:

https://huggingface.co/playgroundai/playground-v2-512px-base

ご質問がありましたら、遠慮なくお尋ねください!

日本語での質問も大丈夫ですので、気軽にご連絡ください~

このモデルで生成された画像

画像が見つかりません。