Kohaku-XL Delta
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
Kohaku XL Δelta
顧客レベルのハードウェアで訓練された、最高レベルのSDXLアニメベースモデルの一つ。
参加する:https://discord.gg/tPBsKDyRR5

はじめに
Kohaku XL Deltaは、Kohaku XLシリーズの4回目の主要なバージョンであり、360万枚の画像データセット、LyCORISファインチューニング[1]、消費者レベルのハードウェアで訓練され、完全にオープンソース化されています。
使用法
このモデルを使用するための簡単なフォーマットは以下の通りです:
<1girl/1boy/1other/...>, <character>, <series>, <artists>, <special tags>, <general tags>
特殊タグ(品質、レーティング、日付)は実際には一般タグに含まれますが、これらを一般タグの前にグループ化することをお勧めします。
Kohaku XL Deltaは、いくつかのアーティストのスタイルを高精度で習得していますが、ユーザーには特定のアーティストのスタイルを再現しようとするのではなく、複数のアーティストタグを組み合わせて新しいスタイルを探求することを強く推奨します。
タグ
1000回以上の人気を持つすべてのdanbooruタグは動作します。
100回以上の人気を持つすべてのdanbooruタグは、高強度で使用可能である可能性があります。
タグ内のすべてのアンダースコアを削除してください。(短いタグのアンダースコアは削除しないでください。これらは絵文字タグの一部である可能性が高いからです。)
特殊タグ
- 品質タグ:masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
- レーティングタグ:safe, sensitive, nsfw, explicit
- 日付タグ:newest, recent, mid, early, old
品質タグ
品質タグは、各レーティングカテゴリ内での「お気に入り数(fav_count)」のパーセンタイル順位に基づいて割り当てられ、NSFWコンテンツへのバイアスを回避します(Animagine XL v3はこの問題に直面しました)。高い順から低い順に、以下のように整理されています:95パーセンタイル、85パーセンタイル、75パーセンタイル、50パーセンタイル、25パーセンタイル、10パーセンタイル。これにより、6つの閾値で区切られた7つの明確な品質レベルが形成されます。
レーティングタグ
一般:safe
センシティブ:sensitive
疑わしい:nsfw
明示的:nsfw, explicit
注意:訓練中、"explicit" とタグ付けされたコンテンツは "nsfw" のカテゴリにも含まれ、包括的な理解を確保しています。
日付タグ
日付タグは、画像のアップロード日に基づいています。メタデータには実際の作成日は含まれていないためです。
期間は以下のように分類されています:
2005~2010年:old
2011~2014年:early
2015~2017年:mid
2018~2020年:recent
2021~2024年:newest
強調
訓練期間が短いため、一部のタグは十分に学習されていない可能性があります。実験によると、「強調重み」を1.5~2.5に増やすことで、特にキャラクターやアーティストタグに対して良好な結果が得られます。
sd-webuiユーザーの場合、バージョン1.8.0以上を使用し、強調モードを「No norm」に切り替えて、NaNの問題を避けてください。
解像度
このモデルは、最小解像度256、最大解像度4096のARB 1024x1024の解像度で訓練されています。つまり、標準的なSDXL解像度を使用できますが、1024x1024よりやや高い解像度を選択することをお勧めします。より良い結果を得るために、hires-fixの適用も推奨します。
詳細については、提供されたサンプル画像のメタデータをご確認ください。
このモデルの開発背景
データセット
このモデルの訓練用データセットは、HakuBooruから取得され、danbooru2023データセットから選ばれた360万枚の画像で構成されています。[2][3]
ID 0~2,999,999からの100万件、ID 3,000,000~4,999,999からの100万件、およびID 5,000,000以降のすべての投稿を選び、合計410万件の投稿を抽出しました。削除された投稿、ゴールドアカウント投稿、画像のない投稿(GIFやMP4など)をフィルタリングした後、最終的なデータセットは360万枚の画像になりました。
選択は基本的にランダムでしたが、再現性を確保するために固定シードを使用しました。
追加処理
タグのシャッフル:各ステップで一般タグの順序をシャッフルしました。
タグドロップアウト:各ステップでランダムに10%の一般タグを削除しました。
訓練
Kohaku XL Deltaの訓練は、LyCORISプロジェクトとkohya-ss/sd-scriptsのトレーナーによって行われました。[1][4]
ベースモデルの洗練
調査の結果、CLIP内の"token_embedding"および"position_embedding"、またはopenCLIP内の"positional_embedding"を、小~中規模のファインチューニング、特に小さなバッチサイズで訓練しても、効果が薄いことが分かりました。[5][6]
したがって、TE1とTE2モデルの元のトークンおよび位置埋め込みに戻りました。その後、復元したgamma rev2とbeta7モデルを重み0.5で重み付き和で結合し、Kohaku XL Deltaのベースモデルを形成しました。
このベースモデルは「delta-pre2」または「delta base」と呼ばれ、さらなる訓練を行わずに初期バージョンとして位置づけられ、Kohaku XL gamma rev2とKohaku XL beta7の能力の間に位置します。
アルゴリズム:LoKr[7]
このモデルはLoKrアルゴリズムを用いて、各モジュールのファクターを2~8で全行列を有効化して訓練しました。これはLoRA/LyCORISをベースモデルの訓練に適用可能であることを示すことを目的としています。
元のLoKrファイルサイズは800MB未満であり、TEは凍結されていません。元のLoKrファイルは「delta-lokr」バージョンとして提供されます。
詳細な設定については、LyCORIS設定ファイルをご参照ください。
その他の訓練詳細
- ハードウェア:RTX 3090 x2
- 訓練画像数:3,665,398
- バッチサイズ:4
- 勾配蓄積ステップ:16
- 相当バッチサイズ:128
- 合計エポック数:1
- 合計ステップ数:28638
- 最適化アルゴリズム:Lion8bit
- 学習率:UNetは4e-5、TEは1e-5
- 学習率スケジューラ:Constant
- ウォームアップステップ:100
- 重み減衰:0.1
- ベータ値:0.9, 0.95
- 最小SNRガンマ:5
- 解像度:1024x1024
- 最小バケット解像度:256
- 最大バケット解像度:4096
- 混合精度:FP16
警告:bitsandbytesバージョン0.36.0~0.41.0には、8bit最適化に重大なバグがあり、訓練を損なう可能性があります。必ずアップデートしてください。[8]
訓練コスト
DDPを使用して2台のRTX 3090で、360万枚の画像データセットに対して1エポックを完了させるには、約17~18日かかりました。相当バッチサイズ128に対して1ステップは約51~51.5秒かかりました。
最終マージ
最終モデルは、ベースモデルとLoKr訓練モデルを重み1.0でマージして作成されています。したがって、このモデルは完全に訓練されたものであり、訓練後にAnxl3やPonyXL6とマージされていません。
次のステップ
DeltaはKohaku XLの最後の大規模なアップデートになる可能性がありますが、これ以上手を加えないというわけではありません。これが本当に最後であるとは保証しません。
数エポックさらに訓練してみるか、データセットを500万枚に拡大しようと考えています。また、少し大きなセットアップでDoKrを試して、実験的な調整を試みることも検討しています。
(面白いことに、Deltaも当初は実験的な試みでしたが、非常に良い結果が得られたため、メインリリースになりました!)
特別な感謝
AngelBottomless & Nyanko7:danbooru2023データセット[3]
Kohya-ss:トレーナー[4]
ChatGPT/GPT4:このモデルカードの洗練
AIアートは人間のように見せるのではなく、AIらしく見せるべきです。
参照・リソース
参照
[1] Shih-Ying Yeh, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.
[2] HakuBooru - booruスタイルの画像プラットフォーム向けテキスト・画像データセット作成ツール。https://github.com/KohakuBlueleaf/HakuBooru
[3] Danbooru2023:大規模なクラウドソーシングおよびタグ付けされたアニメイラストデータセット。
https://huggingface.co/datasets/nyanko7/danbooru2023
[4] kohya-ss/sd-scripts。
https://github.com/kohya-ss/sd-scripts
[5] Transformers:Pytorch、TensorFlow、JAX向けの最先端機械学習。https://github.com/huggingface/transformers/blob/b647acdb53d251cec126b79e505bac11821d7c93/src/transformers/models/clip/modeling_clip.py#L204-L205
[6] OpenCLIP:CLIPのオープンソース実装。https://github.com/mlfoundations/open_clip/blob/73fa7f03a33da53653f61841eb6d69aef161e521/src/open_clip/transformer.py#L598-L604
[7] LyCORIS:LoRAを超えた他のランク適応手法のStable Diffusion実装。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr
[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - インデントミスが長期間バグの原因に。https://github.com/TimDettmers/bitsandbytes/issues/659
リソース
Kohaku XL beta. /model/162577/kohaku-xl-beta
Kohaku XL gamma. /model/270291/kohaku-xl-gamma
ライセンス
このモデルはFair-AI-Public-License-1.0-SDの下でリリースされています。
詳細については、こちらのウェブサイトをご確認ください:
Freedom of Development (freedevproject.org)
付録
詳細や設定についての情報は、添付ファイルをダウンロードするか、私のHugging Faceをご覧ください:




















