hyperfusion LoRA 550k images

詳細

モデル説明

このLoRAは、通常から過大サイズのアニメキャラクター55万枚の画像でトレーニングされています。主に胸/お尻/お腹/太ももに焦点を当てていますが、現在はより一般的なタグの対応も可能になっています。

**v8 LoRAの場所が気になる方は、Changelog Articleを読んでください。**

また、これらのモデル用のバックアップ HuggingFaceリンク

HyperFusionで使用された140万件のカスタムタグを、ここにアップロードしました。ご自分のデータセットに統合するのに最適です。

推奨事項
ネガティブ(ベースモデルに依存します。お好みのものを使用してください): lowres, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, (worst quality, low quality), normal quality, jpeg artifacts, signature, watermark, username, blurry, monochrome, [3d], comic, (sketch), transparent background, artist name
cfg: 9-12
解像度: 768 ~ 1024 ですが、768に近い方が好ましい
clip skip: 2

サンプラー: v7以降は、Karrasサンプラーを避けるようにしてください。--zero_terminal_snrでトレーニングするとKarrasサンプラーに問題が発生しますが、多少は動作します。

Changelog Article Link

タグ情報(タグドキュメントは必ず読んでください。:トレーニングデータ)

HyperFusionは複数のタグ体系を統合したものであるため、トレーニングデータのダウンロードセクションにタグガイドを含めてあります。こちらではタグの仕組み(Danbooruタグに類似)や、モデルが最も熟知しているタグ、および全てのカスタムラベルタグについて説明しています。
基本的に、Danbooru、Gelbooru、r-34、e621 のタグの大部分が使用可能で、ブラジャー/お尻/お腹/太もも/乳首/ボディシェイプ関連で使えます。

タグ探索の最適な方法は、上記のbooruサイトの1つから好きな画像のタグをコピーし、それをベースに使うことです。このモデルにはあまりにも多くのタグがトレーニングされているため、すべてを試すことは不可能です。

ヒント

  • タグで期待した結果が得られない場合は、類似タグを探し、それも併用してみてください。このモデルは、あるタグの知識を関連する他のタグに分散させやすい傾向があるため、より多くのタグを含めることで、希望する出力が得られる可能性が高まります。

  • ネガティブに「3d」を使うと、レンダリングされたモデル風に傾きすぎた画像を、よりアニメ的になるように修正できます。

  • お尻関連のタグはバックショットを強く好みます。その後に低強度のControlNetポーズを使用して補正するか、以下をネガティブに含める:「ass focus, from behind, looking back」。新しい「前から見えているお尻」タグも役立ちます。

  • ...その他のヒントはタグドキュメントに記載されています

その他の情報

このモデルには数ヶ月間の失敗と多くの教訓(そのためv7に至ったのです!)が必要でした。今後、特定のタグを改善するためにいくつかの画像分類器をさらにトレーニングしたいと考えていますが、現時点ではそれ以上に夢もありません。

もちろん、私のモデルの monetization(収益化)を行うつもりはまったくありません。厚みを楽しんでください!


トレーニングの課題

-タグ付け-

大規模なデータセットをタグ付けする鍵は、すべてを自動化することです。最初はwd-tagger(あるいは似たDanbooruタグ付けツール)を使用して、オリジナルのタグに共通タグを追加しました。その後、e621タグ付けツールも追加しましたが、通常はタグリスト全体ではなく限定されたタグのみを使用しており、一部のタグは正確性が低すぎるためです。その後、胸の大きさ、胸の形、へそ(インナーバイク/アウトナーバイク)、方向性、運動線、約20個以上の画像分類器をトレーニングし、それらにタグ付けを任せました。これらは既存のタグを改善するだけでなく、全く新しいコンセプトをデータセットに追加しました。最後に、タグドキュメントに記載されているように、類似するタグを1つのタグに統合しました(現在はこれを行っていません。300万枚の画像ではそれほど重要ではなくなったためです)。

基本的に、特定のテーマでプロンプトを出せない場合、新しい分類器を作成して対処してきました。現時点でうまくいかないのは、画像内の小さな細部を分類するタグのみです(署名など)。

v9から、タグと共に約5%のキャプションを含める予定です。これらのキャプションはCogVLMにより生成されます。

画像分類器のトレーニングに使用したツール
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-classification

理想は、Danbooruタグガーのように1画像あたり複数クラスの分類器をトレーニングすることですが、現在のところ1画像あたり1クラスの分類器でも十分に機能しています。

-結果が悪い-

長期間にわたり、不十分な結果に悩まされてきました。もともとデータの質が低かったのかと疑いましたが、結局はタグ付けが不十分な画像が原因でした。r-34のようなサイトでは、「大きな胸、超大きな胸、過大な胸」といった同じ画像に複数のタグが記載されがちです。このような状態では、特定のサイズを求めるモデルにとっては不適切です。前述の分類器を使用して、各体部位について1枚の画像に1つのサイズタグのみを限定したところ、結果は劇的に変わりました。

2023/08/13 タグ付け/トレーニングに関する経験をさらに積んで再びこのプロジェクトに取り組む中で、上記の主張にまったく変わりありません。画像をより多くタグ付けするほど、モデルはプロンプトに対してより信頼性が高くなります。新しく導入された「bottomheavy(下だけ太い)」「topheavy(上だけ太い)」「bellyheavy(お腹だけ太い)」といったタグが特に明確にその違いを示しています。特定のボディタイプを生成するのに非常に役立ち、プロンプトの意図をモデルが理解しやすくなります。新たな画像を追加する必要はありませんでした。タグ付けの質の改善だけで十分です。

-タグの漏れ-

タグの漏れ(Tag Bleeding)の一例として、「gigantic breasts(巨大な胸)」というタグを使うと、結果として胸だけでなくお尻や太ももまで巨大化してしまうことがあります。これは非常に厄介な問題です。

2024/03/15 より大きなモデルをトレーニングしてから、漏れの問題はそれほど大きな問題ではなくなってきました。おそらく、データ量の多さが答えなのかもしれません。

-テスト-

新しいモデルが前バージョンより良いかどうかを判断するためには、比較可能な標準的なプロンプトを持つことが重要です。x/yプロットはこれに非常に適しています。ただし、モデル間でシードが全く異なる点に注意してください。1対1で比較するのではなく、複数枚を一度に比較する必要があります。

また、新しいモデルが元のベースモデルの出力と比較して本当に全体的に良い影響を与えているかを確認することも重要です(明らかですが、無視されがちです)。

2023/08/13 テストにおいて特に難しいのは、テキストエンコーダーの「過剰なトレーニング(overcook)」の判別です。ある時点で、高い学習率でテキストエンコーダーをトレーニングすると、モデルのプロンプトの解釈能力が低下します。小規模・大規模のモデルに関わらず、この現象が発生することを確認しました。残念ながら、それ以外に効果的な検証方法は現時点でありません。テキストエンコーダーを無しでトレーニングすることを何度も試みましたが、結果は常に不十分か、学習速度が非常に遅くなってしまいます。ベースモデルにとって新しい概念は、TE(テキストエンコーダー)を有効化してトレーニングした場合に遥かに良く理解されます。

-ソフトウェア/ハードウェア-

すべてのトレーニングは、Ubuntu環境の3090で行われました。使用したソフトウェアは、現時点で最も選択肢が豊富なKohya's trainerです。

このモデルで生成された画像

画像が見つかりません。