hyperfusion_vpred finetune 3.3m images

詳細

モデル説明

このチェックポイントは、通常から超大型のアニメキャラクターの330万枚の画像で学習されました。主に胸・お尻・腹部・太ももに焦点を当てていますが、現在ではより一般的なタグトピックも扱えるようになっています。v8以降ではアニメとフューリー画像が約50%ずつです。バージョンの詳細と今後の計画については、以下の変更ログ記事をご覧ください。

注意: これは私の最終的なSD1xモデルになります。私はHyperFusionデータセットがSD1.5上で本当にどのような性能を発揮できるのかを試したかったため、2台の3090で10か月間学習させ、可能な限りすべての概念的知識を抽出しました。これはこれまで私が訓練した中最も優れた概念モデルですが、依然としてSD1x特有の不完全さ(jankiness)を抱えています。おそらくテキストエンコーダの学習率(LR)を長すぎた期間高めに設定していたと思います(0.5x → 0.3x)。

stuffer.ai にモデルをホストしてフィードバックを収集させてくれたことに心より感謝します。これはモデルの初期段階で問題を解決する上で非常に重要であり、長期的な改善点を確認するための優れた方法でした。

V9はv_predモデルであるため、A1111ではYAMLファイルを使用するか、Comfyではvpredノードと両方でcfg_rescale=0.6–0.8を使用する必要があります。A1111ではまた、CFG_Rescale拡張機能 のインストールが必要です。

ComfyUIワークフローを使用した古い例を以下に掲載しました:https://civitai.com/images/64978187

その他のリンク:

オリジナルのHyperFusion LoRAs は以下で入手できます:/model/16928
また、これらのモデルのバックアップとしてHuggingFaceリンクも用意しています。

HyperFusionで使用した140万個のカスタムタグを、自分自身のデータセットに統合するため以下にアップロードしました:https://huggingface.co/datasets/thojm/hyperfusion_classified_tags_export

変更ログ記事リンク

v9_vpred ファインチューニングの推奨:

サンプラー:Karrasサンプラー以外のどれでも構いません。Karrasは使用しないでください! --zero_terminal_snrで学習したため、このサンプラーは問題を引き起こします。また、A1111ではユニフォームスケジューラ、Comfyでは「simple,normal」を少なくとも使用する必要があります。

ネガティブ:それぞれのタグを個別にテストし、ポジティブな効果があることを確認しました:

worst quality, low rating, signature, artist name, artist logo, logo, unfinished, jpeg artifacts, artwork \(traditional\), sketch, horror, mutant, flat color, simple shading

ポジティブ:このモデルに学習させたベーススタイルには「best quality, high rating」を推奨します。詳細は「トレーニングデータ」ドキュメントをご覧ください。

cfg:7–9

cfg_rescale:このv_predモデルにはcfg_rescaleが必須です。値が低いほど身体的ホラーが減りますが、画像が暗くなります。

解像度:768–1024(身体的ホラーを減らすには896に近い値が推奨)

clip skip:2

zero_terminal_snr:有効化

スタイル:まずスタイルを選んでください。デフォルトのスタイルはあまり良くありません。v8+に追加された新しいアーティストタグをお試しください。すべてのタグはtags.csvで"(artist)"を検索すると見つかります。アートスタイルの例は画像をご覧ください。

LoRA/TI:他のモデルで学習したLoRAはこのモデルでは動作しません。他のv_predモデルで学習したLoRAですら、このモデルで動作する保証はありません。

v8 LoRAの推奨:

サンプラー:Karrasサンプラー以外のどれでも構いません。Karrasは使用しないでください! --zero_terminal_snrで学習したため、このサンプラーは問題を引き起こします。

LoRA/TI:NovelAIベースのモデルで学習したLoRA/TIを使用すると、逆効果になる可能性があります。まずはそれらなしで試してください。

ネガティブ:low rating, lowres, text, signature, watermark, username, blurry, transparent background, ugly, sketch, unfinished, artwork \(traditional\), multiple views, flat color, simple shading, unfinished, rough sketch

cfg:8(HyperFusion LoRAよりも低い値が必要です)
解像度:768–1024(身体的ホラーを減らすには768に近い値が推奨)

clip skip:2

スタイル:v8に追加された新しいアーティストタグを試してください。すべてのタグはtags.csvで"(artist)"を検索すると見つかります。


タグ情報(タグドキュメントを必ずお読みください:トレーニングデータ参照)

HyperFusionは複数のタグ付け方式の集積であるため、トレーニングデータのダウンロードセクションにタグガイドを含めました。タグの動作方法(Danbooruタグと類似)、モデルが最も得意とするタグ、およびすべてのカスタムラベルタグについて説明しています。

基本的に、胸・お尻・腹部・太もも・乳首・vore・ボディシェイプに関連するDanbooru、Gelbooru、r-34、e621のタグのほとんどは使用できます。

タグ探索の最も効果的な方法は、上記のbooruサイトのいずれかで好みの画像のタグをコピーし、それをベースとして使用することです。このモデルには学習されたタグが多すぎて、すべてを試すことは不可能です。

ヒント

  • このデータセットの規模と多様性のため、タグの挙動はほとんどのNovelAIベースモデルと異なります。他のモデルで使用したプロンプトは、調整が必要になるかもしれません。

  • タグから期待する結果が得られない場合、類似タグを他のものも含めてください。このモデルは、あるタグの知識を関連する他のタグに広げがちです。そのため、より多くの関連タグを追加することで、望む結果を得る確率が上がります。

  • ネガティブに「3d」を使用すると、レンダリングされたモデルのような見た目になりすぎた場合、よりアニメ風に調整できます。

  • お尻関連タグは背面ショットを強く好みます。これは低強度のControlNetポーズで補正するか、ネガティブに「ass focus, from behind, looking back」のいずれかを試してください。「ass visible from front」という新しいタグも役立ちます。

  • …その他のヒントはタグドキュメントをご覧ください。

追加情報

このモデルの開発には数ヶ月の失敗と多くの教訓(その結果v7が生まれました)がかかりました。今後、特定のタグの改善を目的としていくつかの画像分類器を訓練したいと考えていますが、それ以外の未来の夢は一旦保留です。

従来通り、私は自分のモデルを収益化するつもりはありません。厚みをお楽しみください!


-タグ付け-

大規模データセットのタグ付けの鍵はすべてを自動化することです。最初にwd-tagger(または同様のDanbooruタガー)を使ってオリジナルタグの上に一般的なタグを追加しました。その後、e621タガーも追加しましたが、一般的には制限されたタグセットのみでタグ付けし、すべてのタグリストを適用するのではなく、一部のタグは不正確すぎるため除外しました。その後、乳首のサイズ・形・へそ(インニー/アウトニー)・方向性・動き線など、約20種類の画像分類器を訓練し、それらにタグ付けさせました。それらは既存のタグを改善するだけでなく、データセットにまったく新しい概念を追加しました。最後に、タグドキュメントで説明したように、類似タグを単一タグに統合しました(現在はこの作業を停止しています。300万枚の画像ではそれほど重要ではありません)。

簡単に言えば、特定の要素をプロンプト化するのが難しいと感じたときには、新しい分類器を作成してきました。これまでうまくいかなかった分類器は、画像内の小さな詳細(署名など)を分類しようとしたものだけです。

v9からは、タグと併せて約10%のキャプションを含めます。これらのキャプションはCogVLMで生成されています。

私は以下のコードで画像分類器を訓練しました:
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-classification

理想的にはDanbooruタガーのように複数クラスの画像分類器を訓練すべきですが、現時点では1画像1クラスの分類器でも十分に機能しています。

-ソフトウェア/ハードウェア-

訓練はUbuntu上で3090で実行しました。使用ソフトウェアはKohyaのトレーナーで、現在最も多くのオプションを提供しています。

このモデルで生成された画像

画像が見つかりません。