Kohaku XL εpsilon

消費者レベルのハードウェアで自宅でt2iモデルをチューニングした最良の例

ぜひ参加してください: https://discord.gg/tPBsKDyRR5

Rev2の紹介

Kohaku XL Epsilon rev1 の継続
156万枚の画像、5エポック
選定されたアーティストの作品および選定されたシリーズ/ゲームに関する画像でトレーニング
PVCフィギュアの写真でトレーニング済み。追加モデルなしでPVCスタイルを生成可能

紹介

Kohaku XL Epsilonは、Kohaku XLシリーズの5回目のメジャーアップデートであり、520万枚の画像データセット、LyCORISファインチューニング[1]、消費級ハードウェアでのトレーニング、完全なオープンソース化を特徴としています。

ベンチマーク

3600文字でのCCIPスコア

(0~1、値が高いほど優秀)

明らかに、Kohaku XL EpsilonはKohaku XL Deltaよりもはるかに優れています。

使用方法

<1girl/1boy/1other/...>, 

<character>, <series>, <artists>, 

<general tags>,

<quality tags>, <year tags>, <meta tags>, <rating tags>

Kohaku XL EpsilonはDeltaよりも多くのアーティストのスタイルをマスターしており、複数のアーティストタグを組み合わせる際の安定性も向上しています。ユーザーは独自のスタイルプロンプトを作成することを推奨します。

推奨されるスタイルプロンプト:

ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)

ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)

shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)

(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon

ask \(askzy\), torino aqua, migolu

品質タグは、レーティングカテゴリごとのお気に入り数（fav_count）のパーセンタイルランクに基づいて割り当てられ、nsfwコンテンツへのバイアスを避けるために設定されています（Animagine XL v3はこの問題を経験しました）。高から低へと以下の通りに整理されています：90パーセンタイル、75パーセンタイル、60パーセンタイル、45パーセンタイル、30パーセンタイル、10パーセンタイル。これにより、6つの閾値で7つの明確な品質レベルが形成されます。

Danbooruの画像の平均品質が予想以上に高かったため、閾値を下げました。

レーティングタグ

一般: safe
センシティブ: sensitive
問題あり: nsfw
明示的: nsfw, explicit

注意: トレーニング中、「explicit」とタグ付けされたコンテンツは「nsfw」にも含まれ、包括的な理解を確保します。

日付タグ

日付タグは、画像のアップロード日に基づいています。メタデータには実際の作成日が含まれていないためです。

期間は以下のように分類されています：

2005~2010: old
2011~2014: early
2015~2017: mid
2018~2020: recent
2021~2024: newest

解像度

このモデルは、ARB 1024x1024の解像度でトレーニングされており、最小解像度は256、最大解像度は4096です。これは標準的なSDXL解像度を使用できることを意味しますが、1024x1024よりやや高い解像度を選ぶことを推奨します。より良い結果を得るために、hires-fixの適用も推奨されます。

詳細については、提供されたサンプル画像をご覧ください。

このモデルの開発背景

なぜEpsilonか

Deltaと同じく、新しいデータセットの試験であり、結果が良好でした。

出力もDeltaと大きく異なります。

データセット

このモデルのトレーニング用データセットは、HakuBooruから取得され、danbooru2023データセットから520万枚の画像を選定しました。[2][3]

選定プロセスでは、ID 0～2,000,000から100万件の投稿、ID 2,000,000～4,999,999から200万件、および**ID 5,000,000以降のすべての投稿** を選び、合計535万件の投稿を取得しました。削除された投稿、ゴールドアカウント投稿、画像のない投稿（GIFまたはMP4など）を除外した結果、最終的なデータセットは520万枚の画像となりました。

選定はほぼランダムでしたが、再現性を確保するために固定されたシードを使用しました。

さらに処理

タグのシャッフル：各ステップで一般タグの順序をシャッフルしました。
タグドロップアウト：各ステップで**15%** の一般タグをランダムに削除しました。

トレーニング

Kohaku XL Epsilonのトレーニングは、LyCORISプロジェクトとkohya-ss/sd-scriptsのトレーナーによって実施されました。[1][4]

アルゴリズム：LoKr[7]

モデルはLoKrアルゴリズムを使用してトレーニングされ、全行列を有効化し、モジュールごとに2～8のファクターを設定しました。これはLoRA/LyCORISがベースモデルのトレーニングに適用可能であることを実証する目的でした。

元のLoKrファイルのサイズは800MB未満で、TEは凍結されていません。元のLoKrファイルも「delta-lokr」バージョンとして提供しています。

詳細な設定については、Kohaku XL DeltaのLyCORIS設定ファイルをご参照ください。

その他のトレーニング詳細

ハードウェア：Quad RTX 3090
トレーニング画像数：5,210,319
全エポック：1
- 全ステップ：20354
- バッチサイズ：4
- 勾配蓄積ステップ：16
- 等価バッチサイズ：256
最適化アルゴリズム：Lion8bit
- 学習率：UNet用2e-5 / TE用5e-6
- 学習率スケジューラ：Constant（ウォームアップ付き）
- ウォームアップステップ：1000
- 重み減衰：0.1
- ベータ：0.9, 0.95
最小SNRガンマ：5
ノイズオフセット：0.0357
解像度：1024x1024
最小バケット解像度：256
最大バケット解像度：4096
混合精度：FP16

Rev2のその他のトレーニング詳細

ハードウェア：Quad RTX 3090
トレーニング画像数：1,536,902
全エポック：5
- 全ステップ：15015
- バッチサイズ：4
- 勾配蓄積ステップ：32
- 等価バッチサイズ：512
最適化アルゴリズム：Lion8bit
- 学習率：UNet用1e-5 / TE用2e-6
- 学習率スケジューラ：Cosine（ウォームアップ付き）
- ウォームアップステップ：1000
- 重み減衰：0.1
- ベータ：0.9, 0.95
最小SNRガンマ：5
ノイズオフセット：0.0357
解像度：1024x1024
最小バケット解像度：256
最大バケット解像度：4096
混合精度：FP16

警告：bitsandbytesバージョン0.36.0～0.41.0には、8bit最適化器に深刻なバグがあり、トレーニングを損なう可能性があります。更新は必須です。[8]

トレーニングコスト

DDPを使用して4台のRTX 3090で520万枚の画像データセットを1エポックトレーニングするのに約12～13日かかりました。等価バッチサイズ256あたりの1ステップは約49～50秒かかりました。

Rev2のトレーニングコスト

DDPを使用して4台のRTX 3090で150万枚の画像データセットを5エポックトレーニングするのに約17～19日かかりました。等価バッチサイズ512あたりの1ステップは約105～110秒かかりました。

なぜ13600ステップの中間チェックポイントを公開するのか

13600ステップ～15300ステップの間でトレーニングがクラッシュしました。当時、kohya-ssトレーナーはリジューム＋ステップスキップを実装していませんでした。

Kohyaと私は正しい方法を考案し、いくつかの健全性チェックを行いましたが、最終結果が完全に正しいとは保証できません。そのため、誰かがトレーニングを再現したい場合に、最終結果の問題を特定できるよう、中間チェックポイントを公開します。

次に何をするか

新しいデータセットの作成（目標：1000万～1500万枚の画像）に集中しています。SD3が登場次第、それを使う価値があるか検討します。

Epsilonに対して小さなファインチューニングを行い、rev2/3/4…として公開する可能性もありますが、現在の主な焦点はデータセットです。

特別な感謝

AngelBottomless & Nyanko7：danbooru2023データセット[3]

Kohya-ss：トレーナー[4]

AIアートは人間のように見えるべきではなく、AIらしくあるべきだ。

（ちょっとした豆知識：このスローガンは私の個人ホームページから生まれました。多くの人が気に入り、自らのモデルページに掲載しています。）

参考・リソース

参考文献

[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.

[2] HakuBooru - booruスタイルの画像プラットフォーム用テキスト・画像データセット作成ツール。https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023: 大規模なクラウドソーシングおよびタグ付けされたアニメイラストデータセット。https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts。https://github.com/kohya-ss/sd-scripts

[7] LyCORIS - LoRAの従来の方法を超えた、他のランク適応実装（Stable Diffusion用）。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - インデントエラーが長期間にわたりバグの原因に。https://github.com/TimDettmers/bitsandbytes/issues/659

リソース

Kohaku XL beta。/model/162577/kohaku-xl-beta

Kohaku XL gamma。/model/270291/kohaku-xl-gamma

Kohaku XL delta。/model/332076/kohaku-xl-delta

ライセンス

このモデルは「Fair-AI public license 1.0-SD」ライセンスの下でリリースされています。

詳細については、オリジナルライセンスをご参照ください：

Freedom of Development (freedevproject.org )

モデルタイプ	チェックポイント
ベースモデル	SDXL 1.0
公開日	4/14/2024

Kohaku-XL Epsilon

詳細

ファイルをダウンロード

モデル説明