Kohaku-XL Zeta

詳細

ファイルをダウンロード

モデル説明

Kohaku-XL Zeta

DiT は 必要十分なだけ ではありません

参加する: https://discord.gg/tPBsKDyRR5

特徴

  • Kohaku-XL-Epsilon rev2 からの継承

  • より安定。長文・詳細なプロンプトはもはや必須ではありません。

  • スタイルとキャラクターの忠実度が向上し、より多くのスタイルをサポートします。

    • CCIPメトリクスがSanae XL animeを上回りました。3700文字のデータセット内において、2200文字以上でCCIPスコアが0.9を超える結果を得ています。
  • danbooruタグと自然言語の両方で学習しており、自然言語キャプションへの対応能力が向上しています。

  • danbooruだけでなく、複合データセットで学習されています。

    • danbooru(760万枚の画像、最終ID 7832883、2024/07/10)

    • pixiv(260万枚の特殊セットからフィルタリング、URLセットは公開予定)

    • PVCフィギュア(約3万枚、内部ソース)

    • realbooru(約9万枚、正則化用)

    • 合計846万枚の画像

  • このモデルは両方のキャプション形式で学習されているため、コンテキスト長の制限が300まで拡張されています。

使用方法(このセクションを必ずお読みください)

推奨生成設定

  • 解像度:1024x1024 または同等のピクセル数

  • CFGスケール:3.5~6.5

  • サンプラー/スケジューラ:

    • Euler (A) / 任意のスケジューラ

    • DPM++ シリーズ / 指数スケジューラ

    • その他のサンプラーについては、個人的には指数スケジューラを推奨します。

  • ステップ数:12~50

プロンプト生成

DTGシリーズのプロンプト生成ツールはKXL Zetaでも引き続き使用可能です。タグと自然言語キャプションの両方に対応した新規プロンプト生成ツールを開発中です。

image/pngimage/png

プロンプト形式

Kohaku XL Epsilon または Delta と同様ですが、「一般タグ」を「自然言語キャプション」に置き換えることができます。両方を同時に使用することも可能です。

特殊タグ

  • 品質タグ:masterpiece、best quality、great quality、good quality、normal quality、low quality、worst quality

  • レーティングタグ:safe、sensitive、nsfw、explicit

  • 日付タグ:newest、recent、mid、early、old

レーティングタグの対応

General: safe

Sensitive: sensitive

Questionable: nsfw

Explicit: nsfw, explicit

データセット

特定の概念に対する能力を向上させるため、フィルタリング済みではなく、完全なdanbooruデータセットを使用しました。さらに、人気順にソートした3~5タグでクロールしたPixivデータセットを追加データとして使用しました。Pixivの検索システムはタグごとに5000ページまでしか許可していないため、意味のある画像はそれほど多くなく、一部はdanbooruと重複しています(しかし、これらの概念を強化したいので、重複は無視しました)。

KXL eps rev2と同様に、概念やスタイルの柔軟性を高めるため、realbooruとPVCフィギュアの画像も追加しました。

学習

  • ハードウェア:Quad RTX 3090

  • データセット

    • 画像数:8,468,798枚

    • 解像度:1024x1024

    • 最小バケット解像度:256

    • 最大バケット解像度:4096

    • キャプションタグドロップアウト率:0.2

    • キャプショングループドロップアウト率:0.2(タグまたは自然言語キャプションを完全に削除)

  • 学習

    • バッチサイズ:4

    • 勾配蓄積ステップ:32

    • 等価バッチサイズ:512

    • 合計エポック:1

    • 合計ステップ:16548

    • 学習時間:430時間(実時間)

    • 混合精度:FP16

  • 最適化手法

    • 最適化手法:Lion8bit

    • 学習率:UNet用 1e-5 / TEは学習無効

    • 学習率スケジューラ:定数(ウォームアップ付き)

    • ウォームアップステップ:100

    • 重み減衰:0.1

    • ベータ値:0.9, 0.95

  • ディフュージョン

    • 最小SNRガンマ:5

    • デバイアス推定損失:有効

    • IPノイズガンマ:0.05

なぜSDXLを採用し、新しいDiTベースモデルを使わないのですか?

誰かが私に合理的な計算リソースを提供するか、効率的なDiTモデルを公開するチームが現れるまで、私はDiTベースのアニメ基底モデルを訓練しません。
しかし、もし8台のH100を1年間提供していただければ、DiTモデルをゼロからいくつでも訓練できます(ご希望なら)。

ライセンス

Fair-AI-public-1.0-sd

このモデルで生成された画像

画像が見つかりません。