SDXL Pony Fast Training Guide

このガイドでは、キャラクターモデルのトレーニング方法を説明します。

20枚の画像を使って、たった15分のトレーニングでSDXL Pony LoRAを作成できます。

このガイドでは、kohya_ssまたはsd-scriptsでのトレーニング経験があることを前提としています。ツールの操作手順の詳細は省略します。

このトレーニングの作成にあたり、以下の優れたガイドを参考にしました：/model/281404/lora-training-guide-anime-sdxl

【トレーニング環境】

推奨VRAM：12GB以上（RTX 4060Ti 16GBで動作確認済み）

*FP8オプションを使用すれば、10GB VRAMでもトレーニング可能です。

【使用ツール】

kohya_ss GUI：https://github.com/bmaltais/kohya_ss

kohya_ssはStability Matrixを利用してインストールしました：https://github.com/LykosAI/StabilityMatrix

Pony Diffusion V6 XL：/model/257749?modelVersionId=290640

zunko_dataset（20画像&タグ）：https://files.catbox.moe/lnelg0.zip

zunko_Exclude_tag_list.txt：https://files.catbox.moe/2jbc93.txt
kohya_ssプリセット（zunko_pony_prodigy_v1.json）：https://files.catbox.moe/t5clrs.json

【トレーニングデータ】

画像数：20〜40枚

これ以上を使用すると再現性が低下する可能性があります。量より一貫した品質が重要です。

画像は、同じイラストレーター、TVシリーズなど、一貫したアートスタイルのものを使用するのが最適です。

ファンアートの場合は、可能な限り一貫したアートスタイルのイラストを集めるよう心がけてください。

本トレーニングでは、日本のZUNKOプロジェクトが公開しているAIトレーニングデータを借用しました：https://zunko.jp/con_illust.html

zunkoが同じ衣装を着ている20点のイラストを選出し、768x1024のPNG画像をWEBP形式に変換しました。

*sd-scriptはWEBPファイルをサポートしており、ファイルサイズが遥かに小さいため、私はWEBPを使用することを推奨します。

【タグ付け】

WebUIのwd14taggerを使用して画像に再タグ付け：

モデル：moat-tagger-v2

重み閾値：デフォルト0.35

「Batch from directory」を選択
　入力および出力ディレクトリのパスを設定
追加タグ：「zunko,score_9,source_anime,znkAA」

　キャラクター名：zunko
　トリガー語：znkAA
　品質タグ：score_9, source_anime

除外タグ
　- キャラクターの特徴（緑髪、黄色い目、長髪など）はすべて削除
　- 衣装の特徴は1つだけ残す（「japanese clothes」を保持）

　私が除外した単語のリストを添付しているため、それを除外タグフィールドに貼り付ければ同様の結果が得られます。

　理想的には、トリガー語にすべてを統合したいですが、トレーニングステップが少ない場合、モデルは「znkAA」が衣装を指すことを学習するのが難しいです。

　そのため、モデルが既に「japanese clothes」として認識している衣装の特徴に吸収させ、それに「znkAA」を補足として追加しています。

　- キャラクターのポーズ、構図、望ましくないオブジェクト（リボン、本、食べ物など）のタグは残してください。

【トレーニング開始】

kohya_ssを起動し、「LoRA」タブを選択してください。DreamBoothタブが選択されている状態でLoRAプリセットを開かないように注意してください。

プリセットを添付しているので、ダウンロードして設定から「Open」してください。

ファイルおよびソースモデルのパスを、ご使用の環境に合わせて調整してください。また、アクセラレータに応じてMixed precisionとSave precisionの設定を調整してください（例：fp16）。

基本設定：

オプティマイザ：prodigy、LRスケジューラ：1
dim：16、Network Alpha：2
バッチサイズ：3、繰り返し回数：1、エポック：50

VRAMが不足してOOMエラーが発生した場合は、fp8トレーニングオプションを有効にしてください。

私の環境では、50エポックに14分かかりました。PCのスペックによって時間は異なります。

【選定】

最後に結果を確認し、お気に入りのエポックを選んでください。50エポックはあくまで目安であり、最終エポックが必ずしも最適とは限りません。

設定は10エポックごとに保存されますが、5エポックごとに保存したほうが良いかもしれません。

トレーニングデータとモデルがよく適合している場合、すぐに収束することがあります。

モデルタイプ	LORA
ベースモデル	Pony
公開日	3/15/2024