Kohaku-XL Epsilon

詳細

ファイルをダウンロード

モデル説明

Kohaku XL εpsilon

消費者レベルのハードウェアで自宅でt2iモデルをチューニングした最良の例

ぜひ参加してください: https://discord.gg/tPBsKDyRR5

Rev2の紹介

  • Kohaku XL Epsilon rev1 の継続

  • 156万枚の画像、5エポック

  • 選定されたアーティストの作品および選定されたシリーズ/ゲームに関する画像でトレーニング

  • PVCフィギュアの写真でトレーニング済み。追加モデルなしでPVCスタイルを生成可能

紹介

Kohaku XL Epsilonは、Kohaku XLシリーズの5回目のメジャーアップデートであり、520万枚の画像データセット、LyCORISファインチューニング[1]、消費級ハードウェアでのトレーニング、完全なオープンソース化を特徴としています。

ベンチマーク

3600文字でのCCIPスコア

(0~1、値が高いほど優秀)

明らかに、Kohaku XL EpsilonはKohaku XL Deltaよりもはるかに優れています。

使用方法

<1girl/1boy/1other/...>, 

<character>, <series>, <artists>, 

<general tags>,

<quality tags>, <year tags>, <meta tags>, <rating tags>

Kohaku XL EpsilonはDeltaよりも多くのアーティストのスタイルをマスターしており、複数のアーティストタグを組み合わせる際の安定性も向上しています。ユーザーは独自のスタイルプロンプトを作成することを推奨します。

推奨されるスタイルプロンプト:

ask \(askzy\), torino aqua, migolu, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
ciloranko, maccha \(mochancc\), lobelia \(saclia\), migolu, ask \(askzy\), wanke, (jiu ye sang:1.1), (rumoon:0.9), (mizumi zumi:1.1)
shiro9jira, ciloranko, ask \(askzy\), (tianliang duohe fangdongye:0.8)
(azuuru:1.1), (torino aqua:1.2), (azuuru:1.1), kedama milk, fuzichoco, ask \(askzy\), chen bin, atdan, hito, mignon
ask \(askzy\), torino aqua, migolu

タグ

Danbooruで人気度1000以上のタグはすべて動作します。

人気度100以上のDanbooruタグは、強調すれば動作する可能性があります。

タグ内の下線(_)はすべて削除してください。(短いタグの下線は削除しないでください。これらは絵文字タグの一部である可能性が高いです。)

sd-webuiを使用している場合、タグに括弧が含まれているときは xxx\(yyy\) の形式を使用してください。

特別なタグ

品質タグ: masterpiece, best quality, great quality, good quality, normal quality, low quality, worst quality

レーティングタグ: safe, sensitive, nsfw, explicit

日付タグ: newest, recent, mid, early, old

品質タグ

品質タグは、レーティングカテゴリごとのお気に入り数(fav_count)のパーセンタイルランクに基づいて割り当てられ、nsfwコンテンツへのバイアスを避けるために設定されています(Animagine XL v3はこの問題を経験しました)。高から低へと以下の通りに整理されています:90パーセンタイル、75パーセンタイル、60パーセンタイル、45パーセンタイル、30パーセンタイル、10パーセンタイル。これにより、6つの閾値で7つの明確な品質レベルが形成されます。

Danbooruの画像の平均品質が予想以上に高かったため、閾値を下げました。

レーティングタグ

  • 一般: safe

  • センシティブ: sensitive

  • 問題あり: nsfw

  • 明示的: nsfw, explicit

注意: トレーニング中、「explicit」とタグ付けされたコンテンツは「nsfw」にも含まれ、包括的な理解を確保します。

日付タグ

日付タグは、画像のアップロード日に基づいています。メタデータには実際の作成日が含まれていないためです。

期間は以下のように分類されています:

  • 2005~2010: old

  • 2011~2014: early

  • 2015~2017: mid

  • 2018~2020: recent

  • 2021~2024: newest

解像度

このモデルは、ARB 1024x1024の解像度でトレーニングされており、最小解像度は256、最大解像度は4096です。これは標準的なSDXL解像度を使用できることを意味しますが、1024x1024よりやや高い解像度を選ぶことを推奨します。より良い結果を得るために、hires-fixの適用も推奨されます。

詳細については、提供されたサンプル画像をご覧ください。

このモデルの開発背景

なぜEpsilonか

Deltaと同じく、新しいデータセットの試験であり、結果が良好でした。

出力もDeltaと大きく異なります。

データセット

このモデルのトレーニング用データセットは、HakuBooruから取得され、danbooru2023データセットから520万枚の画像を選定しました。[2][3]

選定プロセスでは、ID 0~2,000,000から100万件の投稿ID 2,000,000~4,999,999から200万件、および**ID 5,000,000以降のすべての投稿** を選び、合計535万件の投稿を取得しました。削除された投稿、ゴールドアカウント投稿、画像のない投稿(GIFまたはMP4など)を除外した結果、最終的なデータセットは520万枚の画像となりました。

選定はほぼランダムでしたが、再現性を確保するために固定されたシードを使用しました。

さらに処理

  • タグのシャッフル:各ステップで一般タグの順序をシャッフルしました。

  • タグドロップアウト:各ステップで**15%** の一般タグをランダムに削除しました。

トレーニング

Kohaku XL Epsilonのトレーニングは、LyCORISプロジェクトとkohya-ss/sd-scriptsのトレーナーによって実施されました。[1][4]

アルゴリズム:LoKr[7]

モデルはLoKrアルゴリズムを使用してトレーニングされ、全行列を有効化し、モジュールごとに2~8のファクターを設定しました。これはLoRA/LyCORISがベースモデルのトレーニングに適用可能であることを実証する目的でした。

元のLoKrファイルのサイズは800MB未満で、TEは凍結されていません。元のLoKrファイルも「delta-lokr」バージョンとして提供しています。

詳細な設定については、Kohaku XL DeltaのLyCORIS設定ファイルをご参照ください。

その他のトレーニング詳細

  • ハードウェア:Quad RTX 3090

  • トレーニング画像数:5,210,319

  • 全エポック:1

    • 全ステップ:20354

    • バッチサイズ:4

    • 勾配蓄積ステップ:16

    • 等価バッチサイズ:256

  • 最適化アルゴリズム:Lion8bit

    • 学習率:UNet用2e-5 / TE用5e-6

    • 学習率スケジューラ:Constant(ウォームアップ付き)

    • ウォームアップステップ:1000

    • 重み減衰:0.1

    • ベータ:0.9, 0.95

  • 最小SNRガンマ:5

  • ノイズオフセット:0.0357

  • 解像度:1024x1024

  • 最小バケット解像度:256

  • 最大バケット解像度:4096

  • 混合精度:FP16

Rev2のその他のトレーニング詳細

  • ハードウェア:Quad RTX 3090

  • トレーニング画像数:1,536,902

  • 全エポック:5

    • 全ステップ:15015

    • バッチサイズ:4

    • 勾配蓄積ステップ:32

    • 等価バッチサイズ:512

  • 最適化アルゴリズム:Lion8bit

    • 学習率:UNet用1e-5 / TE用2e-6

    • 学習率スケジューラ:Cosine(ウォームアップ付き)

    • ウォームアップステップ:1000

    • 重み減衰:0.1

    • ベータ:0.9, 0.95

  • 最小SNRガンマ:5

  • ノイズオフセット:0.0357

  • 解像度:1024x1024

  • 最小バケット解像度:256

  • 最大バケット解像度:4096

  • 混合精度:FP16

警告:bitsandbytesバージョン0.36.0~0.41.0には、8bit最適化器に深刻なバグがあり、トレーニングを損なう可能性があります。更新は必須です。[8]

トレーニングコスト

DDPを使用して4台のRTX 3090で520万枚の画像データセットを1エポックトレーニングするのに約12~13日かかりました。等価バッチサイズ256あたりの1ステップは約49~50秒かかりました。

Rev2のトレーニングコスト

DDPを使用して4台のRTX 3090で150万枚の画像データセットを5エポックトレーニングするのに約17~19日かかりました。等価バッチサイズ512あたりの1ステップは約105~110秒かかりました。

なぜ13600ステップの中間チェックポイントを公開するのか

13600ステップ~15300ステップの間でトレーニングがクラッシュしました。当時、kohya-ssトレーナーはリジューム+ステップスキップを実装していませんでした。

Kohyaと私は正しい方法を考案し、いくつかの健全性チェックを行いましたが、最終結果が完全に正しいとは保証できません。そのため、誰かがトレーニングを再現したい場合に、最終結果の問題を特定できるよう、中間チェックポイントを公開します。

次に何をするか

新しいデータセットの作成(目標:1000万~1500万枚の画像)に集中しています。SD3が登場次第、それを使う価値があるか検討します。

Epsilonに対して小さなファインチューニングを行い、rev2/3/4…として公開する可能性もありますが、現在の主な焦点はデータセットです。

特別な感謝

AngelBottomless & Nyanko7:danbooru2023データセット[3]

Kohya-ss:トレーナー[4]


AIアートは人間のように見えるべきではなく、AIらしくあるべきだ。


(ちょっとした豆知識:このスローガンは私の個人ホームページから生まれました。多くの人が気に入り、自らのモデルページに掲載しています。)

参考・リソース

参考文献

[1] SHIH-YING YEH, Yu-Guan Hsieh, Zhidong Gao, Bernard B W Yang, Giyeong Oh, & Yanmin Gong (2024). Navigating Text-To-Image Customization: From LyCORIS Fine-Tuning to Model Evaluation. In The Twelfth International Conference on Learning Representations.

[2] HakuBooru - booruスタイルの画像プラットフォーム用テキスト・画像データセット作成ツール。https://github.com/KohakuBlueleaf/HakuBooru

[3] Danbooru2023: 大規模なクラウドソーシングおよびタグ付けされたアニメイラストデータセット。https://huggingface.co/datasets/nyanko7/danbooru2023

[4] kohya-ss/sd-scripts。https://github.com/kohya-ss/sd-scripts

[7] LyCORIS - LoRAの従来の方法を超えた、他のランク適応実装(Stable Diffusion用)。https://github.com/KohakuBlueleaf/LyCORIS/blob/main/docs/Algo-Details.md#lokr

[8] TimDettmers/bitsandbytes - issue 659/152/227/262 - インデントエラーが長期間にわたりバグの原因に。https://github.com/TimDettmers/bitsandbytes/issues/659

リソース

Kohaku XL beta。/model/162577/kohaku-xl-beta

Kohaku XL gamma。/model/270291/kohaku-xl-gamma

Kohaku XL delta。/model/332076/kohaku-xl-delta

ライセンス

このモデルは「Fair-AI public license 1.0-SD」ライセンスの下でリリースされています。

詳細については、オリジナルライセンスをご参照ください:

Freedom of Development (freedevproject.org)

このモデルで生成された画像

画像が見つかりません。