hyperfusion SDXL DoRA 600k images

詳細

ファイルをダウンロード

このバージョンについて

600k枚（ハイパーフォーカスされた）の画像を、より大きなHyperFusionデータセットから抽出してトレーニング。

このモデルの目的は、Unetのみのトレーニングを推進し、テキストエンコーダーなしでどれだけ長くトレーニングにかかるかを確認することだった。結果として、テキストエンコーダーがないとトレーニング時間が少なくとも3倍長くなったため、今後はテキストエンコーダーのトレーニングを含める予定である。追加の時間が価値がないからだ。以前のモデルを基に、このモデルが前のDoRAと同じレベルに到達するまでに3ヶ月かかると予想していたが、固定されたテキストエンコーダーのせいで実際には7ヶ月かかった。まだ完全にトレーニングされていない（ただしv9_sdxlより多くの概念で優れている）が、十分に良くなったと感じたためリリースすることにした。

トレーニングノート：

~600k枚の画像
学習率：3e-4
Unetのみのトレーニング（実験目的）
バッチサイズ：4
グラデーション累積：32
次元：16
α：8
c_dim：8（技術的にはDoRA LoCon）
c_alpha：4
最適化アルゴリズム：Adamw8Bit
スケジューラ：線形
ベースモデル：NoobAI_vpred
フリップ拡張
525トークン長（キャプションとタグを追加すると大量のトークンになるため）
バケットサイズ：1024、最小：512、最大：1280
タグドロップ確率：0.1
タグシャッフル
--min_snr_gamma 2
--ip_noise_gamma 0.02
--scale_weight_norms 7
2x3090で7ヶ月のトレーニング

カスタムトレーニング設定：

Kohyaのトレーニングコードに、トレーニングを改善すると提案された数多くの要素を実装し、効果があったと判断されたものは維持した。

タグの75%を5%の確率でドロップし、短いタグ長の結果を改善することを目指す
min_snrの代わりにsoft_min_snrを使用
--no_flip_when_cap_matches：「sequence」「asymmetrical」「before and after」「text on*」「written」「speech bubble」などのタグが存在する場合、画像のフリップを防止。これによりテキストや非対称な特徴を持つキャラクターの品質向上が期待される
--important_tags：重要なタグをリストの先頭に移動し、重要でないタグとは別にソート（記憶ではNovelAIの提案）
--tag_implication_dropout：生成時に両方のタグが必要とされるのを防ぐため、類似タグをドロップ（例：「breasts」「big breasts」→「breasts」を30-50%の確率でドロップ）。e621のタグ含意CSVを基に必要に応じて追加。10-15%のタグドロップでも、一部のタグ対は依然として過剰に関連づけられていたが、この処理は明確な効果があった。ドロップリストには合計で約5,000のタグがあったと思われる
データセットの30%はVLM（COGVLM、Quen2など）でキャプション生成し、カスタムスクリプトでよくある問題を修正
タグとキャプションの使用：70%の確率でタグ、約20%でキャプション（存在する場合）、10%でタグとキャプションを異なる順序で組み合わせる

このトレーニングでは、さらに学習損失重み付けを実装し、途中でmin_snrを削除した。学習損失重み付けは、静的なノイズスケジュールではなく、異なるタイムステップごとのノイズスケジュールを学習しようと試みるもの。モデルが明確に向上したかどうかは判断しづらいが、導入後にモデルの収束が若干早くなったのは確かだった。ただし、効果は明確ではなく、少なくとも悪影響はなかった。

モデル説明

このDoRAは、超大型のアニメキャラクター60万枚の画像で学習されました。主に胸・お尻・腹部・太もも・脂肪に焦点を当てています。このデータセットは、より大きなhyperfusionデータセットのサブセットですが、体型・サイズに関連する画像のみにフィルターされています。フルデータセットをSDXLで学習するには1年以上かかっていたでしょう、笑。

推奨事項：

DoRA/LoRAの強度：1.0（現在、ほとんどのWebUIでDoRAは動作します）
解像度：約1024px
サンプラー：PonyXLがサポートする任意のサンプラー
v10では、v9よりもLoRAの重みをさらに上げることができます。もしコンセプトが期望するほどうまく動作しない場合は、それを試してください。

hyperfusionで使用された140万個のカスタムタグを以下にアップロードしました：https://huggingface.co/datasets/thojm/hyperfusion_classified_tags_export（ご自身のデータセットへの統合用）

v10 Noob_vpred リリース 2025/07/29：

皆さんは私が消えたと思った？いや、ただただテキストエンコーダーを固定したままモデルを7ヶ月間学習し続けただけです。
この新しいDoRAは、これまでおなじみのコンセプトに加え、いつも通りいくつかの新しいコンセプトが追加されています。また、v9より20万枚多くの画像で学習されています。
このバージョンはNoobAI_Vpredで学習されているため、他のモデルとの互換性は保証されません。特にv_predでないモデルでは動作しない可能性が高いです。
テキストエンコーダーを固定したまま学習を最後にもう一度試してみたかったのです。そして、どれだけ時間がかかってもそれに固執することに決めました。今ではっきり言えますが、今後のモデルでは時間のためだけにテキストエンコーダーを含めるつもりです。動作はしますが、私の環境ではあまりにも遅すぎます。
新しいタグリストを完成させるまで、v9のタグリストをそのまま使ってください。新しいコンセプトは少ないためです。
このバージョンはv9_sdxlよりもコンセプトの扱いが少し改善されており、勾配爆発にもより耐性があります。

v9 Pony リリース：

このモデルは2ヶ月以上学習してきましたが、Fluxがリリースされたため、GPUを解放するために現在の進捗をリリースすることにしました。技術的には、もっと長く学習させるべきでしたが、私は根気がないし、皆さんの多くも待ちくたびれているでしょう。
タグはSD1用のv8リリースとほぼ同じで、blobコンテンツなどいくつかの新規追加があります。詳細は「Training Data」のtag.csvを参照してください。
Ponyは学習が少し難しいため、このモデルではさまざまな実験を行いました。そのため、DoRAの強度は1.0近くに保つことを推奨します。1.1を超えると大抵爆発します。（Ponyで学習するにはscale_weight_normsのような重み正則化が重要です）
学習時間を合理化するため、最初は768x768の解像度で学習し、最終的に1024pxで完了させるつもりでした。しかしFluxが発生しました。それでも結果は十分に妥当です。

私は時々計画と進捗をここに掲載しています。

変更履歴記事リンク

このモデルで生成された画像

並び替え

画像が見つかりません。

モデルタイプ	DoRA
ベースモデル	NoobAI
公開日	7/30/2025