Kohaku-XL Zeta
詳細
ファイルをダウンロード
モデル説明
Kohaku-XL Zeta
DiT は 必要十分なだけ ではありません
参加する: https://discord.gg/tPBsKDyRR5
特徴
Kohaku-XL-Epsilon rev2 からの継承
より安定。長文・詳細なプロンプトはもはや必須ではありません。
スタイルとキャラクターの忠実度が向上し、より多くのスタイルをサポートします。
- CCIPメトリクスがSanae XL animeを上回りました。3700文字のデータセット内において、2200文字以上でCCIPスコアが0.9を超える結果を得ています。
danbooruタグと自然言語の両方で学習しており、自然言語キャプションへの対応能力が向上しています。
danbooruだけでなく、複合データセットで学習されています。
danbooru(760万枚の画像、最終ID 7832883、2024/07/10)
pixiv(260万枚の特殊セットからフィルタリング、URLセットは公開予定)
PVCフィギュア(約3万枚、内部ソース)
realbooru(約9万枚、正則化用)
合計846万枚の画像
このモデルは両方のキャプション形式で学習されているため、コンテキスト長の制限が300まで拡張されています。

使用方法(このセクションを必ずお読みください)
推奨生成設定
解像度:1024x1024 または同等のピクセル数
CFGスケール:3.5~6.5
サンプラー/スケジューラ:
Euler (A) / 任意のスケジューラ
DPM++ シリーズ / 指数スケジューラ
その他のサンプラーについては、個人的には指数スケジューラを推奨します。
ステップ数:12~50
プロンプト生成
DTGシリーズのプロンプト生成ツールはKXL Zetaでも引き続き使用可能です。タグと自然言語キャプションの両方に対応した新規プロンプト生成ツールを開発中です。
プロンプト形式
Kohaku XL Epsilon または Delta と同様ですが、「一般タグ」を「自然言語キャプション」に置き換えることができます。両方を同時に使用することも可能です。
特殊タグ
品質タグ:masterpiece、best quality、great quality、good quality、normal quality、low quality、worst quality
レーティングタグ:safe、sensitive、nsfw、explicit
日付タグ:newest、recent、mid、early、old
レーティングタグの対応
General: safe
Sensitive: sensitive
Questionable: nsfw
Explicit: nsfw, explicit
データセット
特定の概念に対する能力を向上させるため、フィルタリング済みではなく、完全なdanbooruデータセットを使用しました。さらに、人気順にソートした3~5タグでクロールしたPixivデータセットを追加データとして使用しました。Pixivの検索システムはタグごとに5000ページまでしか許可していないため、意味のある画像はそれほど多くなく、一部はdanbooruと重複しています(しかし、これらの概念を強化したいので、重複は無視しました)。
KXL eps rev2と同様に、概念やスタイルの柔軟性を高めるため、realbooruとPVCフィギュアの画像も追加しました。
学習
ハードウェア:Quad RTX 3090
データセット
画像数:8,468,798枚
解像度:1024x1024
最小バケット解像度:256
最大バケット解像度:4096
キャプションタグドロップアウト率:0.2
キャプショングループドロップアウト率:0.2(タグまたは自然言語キャプションを完全に削除)
学習
バッチサイズ:4
勾配蓄積ステップ:32
等価バッチサイズ:512
合計エポック:1
合計ステップ:16548
学習時間:430時間(実時間)
混合精度:FP16
最適化手法
最適化手法:Lion8bit
学習率:UNet用 1e-5 / TEは学習無効
学習率スケジューラ:定数(ウォームアップ付き)
ウォームアップステップ:100
重み減衰:0.1
ベータ値:0.9, 0.95
ディフュージョン
最小SNRガンマ:5
デバイアス推定損失:有効
IPノイズガンマ:0.05
なぜSDXLを採用し、新しいDiTベースモデルを使わないのですか?
誰かが私に合理的な計算リソースを提供するか、効率的なDiTモデルを公開するチームが現れるまで、私はDiTベースのアニメ基底モデルを訓練しません。
しかし、もし8台のH100を1年間提供していただければ、DiTモデルをゼロからいくつでも訓練できます(ご希望なら)。
ライセンス
Fair-AI-public-1.0-sd

















