Kohaku-XL gamma

詳細

ファイルをダウンロード

モデル説明

Kohaku XL Gamma

SDXL向けアニメベースモデルで、独自のアートワークを生成することを目指しています。

著作権で保護されたキャラクターやアーティストのスタイルの再現を目的としていません


はじめに

このモデルは、Animagine XL 3.0 プロジェクトの派生版と見なせます。
基本的に私はLinaqrufと協力して、より優れたアニメベースモデルの作成を行っています(私たちは異なる目標・対象を持っています)。
お互いのモデルや技術を共有し、品質を向上させています。
このモデルもそのような協力の結果として作られました。


モデル

Base7

Kohaku-XL base7は、beta7から再開され、betaシリーズと同じデータセットを使用しています。ただし、今回は私が独自に開発したメタデータシステムでキャプションを生成しています(Linaqrufが使用していたものよりも高度なバージョンと見なせます。まもなくオープンソース化予定)。

メタデータデータベースは以下からダウンロード可能です:
KBlueLeaf/danbooru2023-sqlite · Datasets at Hugging Face

学習詳細:
学習率:8e-6/2e-6
スケジューラ:ウォームアップ付き定数
バッチサイズ:128(バッチサイズ4 × 勾配蓄積16 × GPU数2)

Base 8

Kohaku-XL base8はbase7と同様ですが、学習率は5e-6/1e-6を使用し、148万枚の画像に対してフルエポック学習を行っています。

Gamma rev1

Kohaku-XL Gamma rev1は、anxl3とKohaku XL base7の学習差分を結合したマージモデルです。以下の式を使用します:

gamma rev1 = beta7 + 0.8 * (anxl3 - anxl2) + 0.5 * (base7 - beta7)

Gamma rev2

Kohaku-XL gamma rev2は以下の式でマージされました:

gamma rev2 = beta7 + 1.0 * (anxl3 - anxl2) + 0.25 * (base8 - beta7)

また、直接anxl3とMBWレシピでマージしました:

0,0.1,0.1,0,0.1,0.1,0,0.1,0.1,0,0,0,0,0,0.05,0.05,0.05,0.05,0.05,0.05

マージの理由:

まず、「(anxl3 - anxl2)」は「anxl2から再開してanxl3が学習した内容」と見なせます。この「学習した内容」は主に「メタタグ」と一部のキャラクターやスタイル情報であり、anxl3/anxl2の差分をマージすることが有効です。

あるいは、このマージを「2つのLoRA/LyCORISモデルをマージした」と考えることもできます。1つはanxl3から抽出したもの、もう1つはbase7/8から抽出したものです。

非常に低い重みのMBWマージは、マージモデルで発生した過学習によるアーティファクトを修正するために行いました。


使用方法

FP8モデル

safetensors 0.4.2 以降、またはPyTorch 2.2.0以降では、ユーザーはFP8形式でモデルをsafetensorsまたはPyTorchチェックポイントに保存できます。私はこのモデルのFP8版をzip形式でアップロードしています。zipを解凍し、FP8形式のsafetensorsファイルをSDモデルフォルダにドラッグして通常通り使用できます。

safetensorsを0.4.2以降にアップデートしてください。

FP8+FP16推論の詳細:

A big improvement for dtype casting system with fp8 storage type and manual cast by KohakuBlueleaf · Pull Request #14031 · AUTOMATIC1111/stable-diffusion-webui (github.com)

パラメータ

このモデルは768x1024から1024x1024のARBで学習されています。推奨ピクセル数は786432〜1310720です。
推奨CFGスケールは4〜7です。
サンプラーは特に重要ではありません。

タグ付け

このモデルは、品質タグなどのために私が独自に開発したシステムを使用しています。
したがって、anxl3の差分重みを組み込んでいるとはいえ、ユーザーには私のタグシステム(または両方)の使用を推奨します。

このモデルはアーティスト名をタグとして学習しているため、アーティストタグを「スタイル指定タグ」として使用できます。ただし、私の学習設定はスタイルの学習を目的としていないため、特定のアーティストのスタイルを正確に再現することはできません。アーティストタグはスタイルの補助タグとして使用してください。
キャラクタータグについても同様です。モデルはキャラクタータグを受け入れますが、特定のキャラクターの再現を保証しません。

プロンプトの形式はanxl3と同じです。(私が投稿したサンプル画像を参考にしてください)

レーティングタグ:

  • 一般: safe
  • センシティブ: sensitive
  • 問題あり: nsfw
  • 明示的: explicit, nsfw

品質タグ(良い→悪い順):

  • Masterpiece
  • best quality
  • great quality
  • good quality
  • normal quality
  • low quality
  • worst quality

年次タグ(新着→古着順):

  • newest
  • recent
  • mid
  • early
  • old

些細なモザイクのようなアーティファクトが発生することがあります。これは高学習率や不適切なリサイズ・画像エンコーディングが原因です。
次バージョンで修正を試みます。現在は、R-ESRGAN anime6bやSCUNetモデルを使用して修復してください。


将来の計画

私のデータセットには、リサイズやWebPのアーティファクトが含まれており、モデルの品質に悪影響を及ぼしています。そのため、新しいシステムに基づいてデータセットを再構築し(完了次第オープンソース化)、その後、より大きな(300万〜600万枚)データセットに、より優れた設定で学習を実施する予定です(A100が必要で、約2000〜10000ドルの費用を見込んでいます)。私の作業にご賛同いただける場合は、Buy Me a CoffeeやBTCでのスポンサーをご検討ください。リンクは私のGitHubプロフィールから取得できます:KohakuBlueleaf (Kohaku-Blueleaf) (github.com)


付録

サンプル画像を生成していた際、私のマージ方法が当初は誤っていたことに気づきました(LyCORISのユーティリティにバグがありました)。
rev1の最終版はバグのないものですが、私が投稿した一部のサンプル画像はそのバグのあるバージョンで生成されたものです。
私はそのバグのあるバージョンとbase7をHugging Faceにアップロードします:
KBlueLeaf (Shih-Ying Yeh) (huggingface.co)

次のバージョン(または他のプロジェクト)の進捗を追跡したい場合は、私のホームページをご覧ください:
Kohaku's Homepage (kblueleaf.net)


ライセンス

重要

このモデルはanxl3と同様に、faipl-1.0-sdライセンス下で提供されています:
Freedom of Development (freedevproject.org)

このモデルで生成された画像

画像が見つかりません。