hyperfusion_vpred finetune 3.3m images

throwawayjm

517

5.9K

v9 vpred v8 v7

詳細

ファイルをダウンロード

このバージョンについて

このバージョンのHyperFusionは、10か月間にわたって330万枚の画像で学習され、SD1.5を基盤としたv_prediction + zero_snrモデルです。

このバージョンはSD 1.5で学習されたため、このチェックポイントにはNovelAIの影響は一切ありません。

さらに多くの画像分類器を学習し、既存の分類器を改善しました（分類タグのリストは「トレーニングデータ」セクション参照）。

学習ノート：

約330万枚の画像
学習率：4e-6
TE_LR：1e-6（10エポック後は1e-7に低下）
バッチサイズ：8
グラディエント累積：16
2x3090を使用しているため、基本バッチサイズの2倍。合計v_batch = 256
観測した合計画像数：190,000 × 256 = 48,000,000
AdamW-8bit（最終エポックはテストとしてADOPTを使用）
スケジューラ：線形
基本モデル：SD1.5
カスタムVAEは使用せず、通常は元のSD1.5 VAEを使用
フリップデータ拡張
CLIPスキップ：2
タグ長：525トークン（キャプション＋タグを追加したためこの長さが必要）
バケット化：最大768、最大1024
- バケット解像度ステップ：32（より多くのバケット用）
- 最初の10エポックは768で学習、最後の6エポックは1024で学習
タグドロップ確率：0.15
キャプションドロップアウト：0.1
タグシャッフル
--min_snr_gamma 3
--ip_noise_gamma 0.02
--zero_terninal_snr
学習時間：約10か月

カスタム学習設定：

トレーニングの改善に役立つと提案された多くの機能をKohyaの学習コードに実装し、改善に寄与したと思われる機能は維持しました。

タグの75%を5%の確率でドロップアウトし、短いタグ長の結果を改善することを目的とする
min_snrの代わりにsoft_min_snrを使用
--no_flip_when_cap_matches：「sequence」「asymmetrical」「before and after」「text on*」「written」「speech bubble」などの特定のタグが存在する場合、画像の反転を防止。これによりテキストや非対称な特徴を持つキャラクターの品質が向上します。
--important_tags：重要なタグをリストの先頭に移動させ、重要でないタグとは別にソート（記憶が正しければNovelAIの提案）。
--tag_implication_dropout：生成時に両方のタグが必須にならないよう、類似タグをドロップアウト。例：「breasts」「big breasts」の場合は「breasts」を30-50%の確率でドロップ。e621のタグ含意CSVを基に必要に応じてタグを追加。10-15%のタグドロップアウトでも一部のタグ対が依然として過剰に結びついていたが、この変更により明確な改善が見られた。ドロップアウトリストには合計約5,000タグが含まれていた。
データセットの12%はCogVLMでキャプション付けされ、カスタムスクリプトにより多くのキャプションの一般的な問題を修正。
タグ vs キャプション：70%の確率でタグ、約20%の確率でキャプション（存在する場合）、10%の確率でタグとキャプションを異なる順序で組み合わせて使用。

記憶に残ったその他のカスタム変更があれば、後ほど追加します。

モデル説明

このチェックポイントは、通常から超大型のアニメキャラクターの330万枚の画像で学習されました。主に胸・お尻・腹部・太ももに焦点を当てていますが、現在ではより一般的なタグトピックも扱えるようになっています。v8以降ではアニメとフューリー画像が約50％ずつです。バージョンの詳細と今後の計画については、以下の変更ログ記事をご覧ください。

注意： これは私の最終的なSD1xモデルになります。私はHyperFusionデータセットがSD1.5上で本当にどのような性能を発揮できるのかを試したかったため、2台の3090で10か月間学習させ、可能な限りすべての概念的知識を抽出しました。これはこれまで私が訓練した中最も優れた概念モデルですが、依然としてSD1x特有の不完全さ（jankiness）を抱えています。おそらくテキストエンコーダの学習率（LR）を長すぎた期間高めに設定していたと思います（0.5x → 0.3x）。

stuffer.ai にモデルをホストしてフィードバックを収集させてくれたことに心より感謝します。これはモデルの初期段階で問題を解決する上で非常に重要であり、長期的な改善点を確認するための優れた方法でした。

V9はv_predモデルであるため、A1111ではYAMLファイルを使用するか、Comfyではvpredノードと両方でcfg_rescale=0.6–0.8を使用する必要があります。A1111ではまた、CFG_Rescale拡張機能のインストールが必要です。

ComfyUIワークフローを使用した古い例を以下に掲載しました：https://civitai.com/images/64978187

その他のリンク：

オリジナルのHyperFusion LoRAs は以下で入手できます：/model/16928
また、これらのモデルのバックアップとしてHuggingFaceリンクも用意しています。

HyperFusionで使用した140万個のカスタムタグを、自分自身のデータセットに統合するため以下にアップロードしました：https://huggingface.co/datasets/thojm/hyperfusion_classified_tags_export

変更ログ記事リンク

v9_vpred ファインチューニングの推奨：

サンプラー：Karrasサンプラー以外のどれでも構いません。Karrasは使用しないでください！ --zero_terminal_snrで学習したため、このサンプラーは問題を引き起こします。また、A1111ではユニフォームスケジューラ、Comfyでは「simple,normal」を少なくとも使用する必要があります。

ネガティブ：それぞれのタグを個別にテストし、ポジティブな効果があることを確認しました：

worst quality, low rating, signature, artist name, artist logo, logo, unfinished, jpeg artifacts, artwork \(traditional\), sketch, horror, mutant, flat color, simple shading

ポジティブ：このモデルに学習させたベーススタイルには「best quality, high rating」を推奨します。詳細は「トレーニングデータ」ドキュメントをご覧ください。

cfg：7–9

cfg_rescale：このv_predモデルにはcfg_rescaleが必須です。値が低いほど身体的ホラーが減りますが、画像が暗くなります。

解像度：768–1024（身体的ホラーを減らすには896に近い値が推奨）

clip skip：2

zero_terminal_snr：有効化

スタイル：まずスタイルを選んでください。デフォルトのスタイルはあまり良くありません。v8+に追加された新しいアーティストタグをお試しください。すべてのタグはtags.csvで"(artist)"を検索すると見つかります。アートスタイルの例は画像をご覧ください。

LoRA/TI：他のモデルで学習したLoRAはこのモデルでは動作しません。他のv_predモデルで学習したLoRAですら、このモデルで動作する保証はありません。

v8 LoRAの推奨：

サンプラー：Karrasサンプラー以外のどれでも構いません。Karrasは使用しないでください！ --zero_terminal_snrで学習したため、このサンプラーは問題を引き起こします。

LoRA/TI：NovelAIベースのモデルで学習したLoRA/TIを使用すると、逆効果になる可能性があります。まずはそれらなしで試してください。

ネガティブ：low rating, lowres, text, signature, watermark, username, blurry, transparent background, ugly, sketch, unfinished, artwork \(traditional\), multiple views, flat color, simple shading, unfinished, rough sketch

cfg：8（HyperFusion LoRAよりも低い値が必要です）
解像度：768–1024（身体的ホラーを減らすには768に近い値が推奨）

clip skip：2

スタイル：v8に追加された新しいアーティストタグを試してください。すべてのタグはtags.csvで"(artist)"を検索すると見つかります。

タグ情報（タグドキュメントを必ずお読みください：トレーニングデータ参照）

HyperFusionは複数のタグ付け方式の集積であるため、トレーニングデータのダウンロードセクションにタグガイドを含めました。タグの動作方法（Danbooruタグと類似）、モデルが最も得意とするタグ、およびすべてのカスタムラベルタグについて説明しています。

基本的に、胸・お尻・腹部・太もも・乳首・vore・ボディシェイプに関連するDanbooru、Gelbooru、r-34、e621のタグのほとんどは使用できます。

タグ探索の最も効果的な方法は、上記のbooruサイトのいずれかで好みの画像のタグをコピーし、それをベースとして使用することです。このモデルには学習されたタグが多すぎて、すべてを試すことは不可能です。

ヒント

このデータセットの規模と多様性のため、タグの挙動はほとんどのNovelAIベースモデルと異なります。他のモデルで使用したプロンプトは、調整が必要になるかもしれません。
タグから期待する結果が得られない場合、類似タグを他のものも含めてください。このモデルは、あるタグの知識を関連する他のタグに広げがちです。そのため、より多くの関連タグを追加することで、望む結果を得る確率が上がります。
ネガティブに「3d」を使用すると、レンダリングされたモデルのような見た目になりすぎた場合、よりアニメ風に調整できます。
お尻関連タグは背面ショットを強く好みます。これは低強度のControlNetポーズで補正するか、ネガティブに「ass focus, from behind, looking back」のいずれかを試してください。「ass visible from front」という新しいタグも役立ちます。
…その他のヒントはタグドキュメントをご覧ください。

追加情報

このモデルの開発には数ヶ月の失敗と多くの教訓（その結果v7が生まれました）がかかりました。今後、特定のタグの改善を目的としていくつかの画像分類器を訓練したいと考えていますが、それ以外の未来の夢は一旦保留です。

従来通り、私は自分のモデルを収益化するつもりはありません。厚みをお楽しみください！

-タグ付け-

大規模データセットのタグ付けの鍵はすべてを自動化することです。最初にwd-tagger（または同様のDanbooruタガー）を使ってオリジナルタグの上に一般的なタグを追加しました。その後、e621タガーも追加しましたが、一般的には制限されたタグセットのみでタグ付けし、すべてのタグリストを適用するのではなく、一部のタグは不正確すぎるため除外しました。その後、乳首のサイズ・形・へそ（インニー/アウトニー）・方向性・動き線など、約20種類の画像分類器を訓練し、それらにタグ付けさせました。それらは既存のタグを改善するだけでなく、データセットにまったく新しい概念を追加しました。最後に、タグドキュメントで説明したように、類似タグを単一タグに統合しました（現在はこの作業を停止しています。300万枚の画像ではそれほど重要ではありません）。

簡単に言えば、特定の要素をプロンプト化するのが難しいと感じたときには、新しい分類器を作成してきました。これまでうまくいかなかった分類器は、画像内の小さな詳細（署名など）を分類しようとしたものだけです。

v9からは、タグと併せて約10％のキャプションを含めます。これらのキャプションはCogVLMで生成されています。

私は以下のコードで画像分類器を訓練しました：
https://github.com/huggingface/transformers/tree/main/examples/pytorch/image-classification

理想的にはDanbooruタガーのように複数クラスの画像分類器を訓練すべきですが、現時点では1画像1クラスの分類器でも十分に機能しています。

-ソフトウェア／ハードウェア-

訓練はUbuntu上で3090で実行しました。使用ソフトウェアはKohyaのトレーナーで、現在最も多くのオプションを提供しています。

このモデルで生成された画像

並び替え

画像が見つかりません。

モデルタイプ	チェックポイント
ベースモデル	SD 1.5
公開日	12/17/2024