Kohaku-XL Epsilon
詳細
ファイルをダウンロード
モデル説明
Kohaku XL εpsilon
消費者レベルのハードウェアで自宅でt2iモデルをチューニングした最良の例
ぜひ参加してください: https://discord.gg/tPBsKDyRR5

Rev2の紹介
Kohaku XL Epsilon rev1 の継続
156万枚の画像、5エポック
選定されたアーティストの作品および選定されたシリーズ/ゲームに関する画像でトレーニング
PVCフィギュアの写真でトレーニング済み。追加モデルなしでPVCスタイルを生成可能
紹介
Kohaku XL Epsilonは、Kohaku XLシリーズの5回目のメジャーアップデートであり、520万枚の画像データセット、LyCORISファインチューニング[1]、消費級ハードウェアでのトレーニング、完全なオープンソース化を特徴としています。
ベンチマーク
3600文字でのCCIPスコア
(0~1、値が高いほど優秀)
明らかに、Kohaku XL EpsilonはKohaku XL Deltaよりもはるかに優れています。
使用方法
<1girl/1boy/1other/...>,
<character>, <series>, <artists>,
<general tags>,
<quality tags>, <year tags>, <meta tags>, <rating tags>
Kohaku XL EpsilonはDeltaよりも多くのアーティストのスタイルをマスターしており、複数のアーティストタグを組み合わせる際の安定性も向上しています。ユーザーは独自のスタイルプロンプトを作成することを推奨します。
推奨されるスタイルプロンプト:
ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)
(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon
ask \(askzy\), torino aqua, migolu
タグ
Danbooruで人気度1000以上のタグはすべて動作します。
人気度100以上のDanbooruタグは、強調すれば動作する可能性があります。
タグ内の下線(_)はすべて削除してください。(短いタグの下線は削除しないでください。これらは絵文字タグの一部である可能性が高いです。)
sd-webuiを使用している場合、タグに括弧が含まれているときは xxx\(yyy\) の形式を使用してください。
特別なタグ
品質タグ: masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality
レーティングタグ: safe, sensitive, nsfw, explicit
日付タグ: newest, recent, mid, early, old
品質タグ
品質タグは、レーティングカテゴリごとのお気に入り数(fav_count)のパーセンタイルランクに基づいて割り当てられ、nsfwコンテンツへのバイアスを避けるために設定されています(Animagine XL v3はこの問題を経験しました)。高から低へと以下の通りに整理されています:90パーセンタイル、75パーセンタイル、60パーセンタイル、45パーセンタイル、30パーセンタイル、10パーセンタイル。これにより、6つの閾値で7つの明確な品質レベルが形成されます。
Danbooruの画像の平均品質が予想以上に高かったため、閾値を下げました。
レーティングタグ
一般: safe
センシティブ: sensitive
問題あり: nsfw
明示的: nsfw, explicit
注意: トレーニング中、「explicit」とタグ付けされたコンテンツは「nsfw」にも含まれ、包括的な理解を確保します。
日付タグ
日付タグは、画像のアップロード日に基づいています。メタデータには実際の作成日が含まれていないためです。
期間は以下のように分類されています:
2005~2010: old
2011~2014: early
2015~2017: mid
2018~2020: recent
2021~2024: newest
解像度
このモデルは、ARB 1024x1024の解像度でトレーニングされており、最小解像度は256、最大解像度は4096です。これは標準的なSDXL解像度を使用できることを意味しますが、1024x1024よりやや高い解像度を選ぶことを推奨します。より良い結果を得るために、hires-fixの適用も推奨されます。
詳細については、提供されたサンプル画像をご覧ください。
このモデルの開発背景
なぜEpsilonか
Deltaと同じく、新しいデータセットの試験であり、結果が良好でした。
出力もDeltaと大きく異なります。
データセット
このモデルのトレーニング用データセットは、HakuBooruから取得され、danbooru2023データセットから520万枚の画像を選定しました。[2][3]
選定プロセスでは、ID 0~2,000,000から100万件の投稿、ID 2,000,000~4,999,999から200万件、および**ID 5,000,000以降のすべての投稿** を選び、合計535万件の投稿を取得しました。削除された投稿、ゴールドアカウント投稿、画像のない投稿(GIFまたはMP4など)を除外した結果、最終的なデータセットは520万枚の画像となりました。
選定はほぼランダムでしたが、再現性を確保するために固定されたシードを使用しました。
さらに処理
タグのシャッフル:各ステップで一般タグの順序をシャッフルしました。
タグドロップアウト:各ステップで**15%** の一般タグをランダムに削除しました。
トレーニング
Kohaku XL Epsilonのトレーニングは、LyCORISプロジェクトとkohya-ss/sd-scriptsのトレーナーによって実施されました。[1][4]
アルゴリズム:LoKr[7]
モデルはLoKrアルゴリズムを使用してトレーニングされ、全行列を有効化し、モジュールごとに2~8のファクターを設定しました。これはLoRA/LyCORISがベースモデルのトレーニングに適用可能であることを実証する目的でした。
元のLoKrファイルのサイズは800MB未満で、TEは凍結されていません。元のLoKrファイルも「delta-lokr」バージョンとして提供しています。
詳細な設定については、Kohaku XL DeltaのLyCORIS設定ファイルをご参照ください。
その他のトレーニング詳細
ハードウェア:Quad RTX 3090
トレーニング画像数:5,210,319
全エポック:1
全ステップ:20354
バッチサイズ:4
勾配蓄積ステップ:16
等価バッチサイズ:256
最適化アルゴリズム:Lion8bit
学習率:UNet用2e-5 / TE用5e-6
学習率スケジューラ:Constant(ウォームアップ付き)
ウォームアップステップ:1000
重み減衰:0.1
ベータ:0.9, 0.95
最小SNRガンマ:5
ノイズオフセット:0.0357
解像度:1024x1024
最小バケット解像度:256
最大バケット解像度:4096
混合精度:FP16
Rev2のその他のトレーニング詳細
ハードウェア:Quad RTX 3090
トレーニング画像数:1,536,902
全エポック:5
全ステップ:15015
バッチサイズ:4
勾配蓄積ステップ:32
等価バッチサイズ:512
最適化アルゴリズム:Lion8bit
学習率:UNet用1e-5 / TE用2e-6
学習率スケジューラ:Cosine(ウォームアップ付き)
ウォームアップステップ:1000
重み減衰:0.1
ベータ:0.9, 0.95
最小SNRガンマ:5
ノイズオフセット:0.0357
解像度:1024x1024
最小バケット解像度:256
最大バケット解像度:4096
混合精度:FP16
警告:bitsandbytesバージョン0.36.0~0.41.0には、8bit最適化器に深刻なバグがあり、トレーニングを損なう可能性があります。更新は必須です。[8]
トレーニングコスト
DDPを使用して4台のRTX 3090で520万枚の画像データセットを1エポックトレーニングするのに約12~13日かかりました。等価バッチサイズ256あたりの1ステップは約49~50秒かかりました。
Rev2のトレーニングコスト
DDPを使用して4台のRTX 3090で150万枚の画像データセットを5エポックトレーニングするのに約17~19日かかりました。等価バッチサイズ512あたりの1ステップは約105~110秒かかりました。
なぜ13600ステップの中間チェックポイントを公開するのか
13600ステップ~15300ステップの間でトレーニングがクラッシュしました。当時、kohya-ssトレーナーはリジューム+ステップスキップを実装していませんでした。
Kohyaと私は正しい方法を考案し、いくつかの健全性チェックを行いましたが、最終結果が完全に正しいとは保証できません。そのため、誰かがトレーニングを再現したい場合に、最終結果の問題を特定できるよう、中間チェックポイントを公開します。
次に何をするか
新しいデータセットの作成(目標:1000万~1500万枚の画像)に集中しています。SD3が登場次第、それを使う価値があるか検討します。
Epsilonに対して小さなファインチューニングを行い、rev2/3/4…として公開する可能性もありますが、現在の主な焦点はデータセットです。
特別な感謝
AngelBottomless & Nyanko7:danbooru2023データセット[3]
Kohya-ss:トレーナー[4]
AIアートは人間のように見えるべきではなく、AIらしくあるべきだ。
(ちょっとした豆知識:このスローガンは私の個人ホームページから生まれました。多くの人が気に入り、自らのモデルページに掲載しています。)
参考・リソース
参考文献
[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.
[2] HakuBooru - booruスタイルの画像プラットフォーム用テキスト・画像データセット作成ツール。https://github.com/KohakuBlueleaf/HakuBooru
[3] Danbooru2023: 大規模なクラウドソーシングおよびタグ付けされたアニメイラストデータセット。https://huggingface.co/datasets/nyanko7/danbooru2023
[4] kohya-ss/sd-scripts。https://github.com/kohya-ss/sd-scripts
[7] LyCORIS - LoRAの従来の方法を超えた、他のランク適応実装(Stable Diffusion用)。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr
[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - インデントエラーが長期間にわたりバグの原因に。https://github.com/TimDettmers/bitsandbytes/issues/659
リソース
Kohaku XL beta。/model/162577/kohaku-xl-beta
Kohaku XL gamma。/model/270291/kohaku-xl-gamma
Kohaku XL delta。/model/332076/kohaku-xl-delta
ライセンス
このモデルは「Fair-AI public license 1.0-SD」ライセンスの下でリリースされています。
詳細については、オリジナルライセンスをご参照ください:




















