SDXL Pony Fast Training Guide

詳細

ファイルをダウンロード

モデル説明

このガイドでは、キャラクターモデルのトレーニング方法を説明します。

20枚の画像を使って、たった15分のトレーニングでSDXL Pony LoRAを作成できます。

このガイドでは、kohya_ssまたはsd-scriptsでのトレーニング経験があることを前提としています。ツールの操作手順の詳細は省略します。

このトレーニングの作成にあたり、以下の優れたガイドを参考にしました:/model/281404/lora-training-guide-anime-sdxl

【トレーニング環境】

推奨VRAM:12GB以上(RTX 4060Ti 16GBで動作確認済み)

*FP8オプションを使用すれば、10GB VRAMでもトレーニング可能です。

【使用ツール】

kohya_ss GUIhttps://github.com/bmaltais/kohya_ss

kohya_ssはStability Matrixを利用してインストールしました:https://github.com/LykosAI/StabilityMatrix

Pony Diffusion V6 XL/model/257749?modelVersionId=290640

zunko_dataset(20画像&タグ)https://files.catbox.moe/lnelg0.zip

zunko_Exclude_tag_list.txthttps://files.catbox.moe/2jbc93.txt
kohya_ssプリセット(zunko_pony_prodigy_v1.json)https://files.catbox.moe/t5clrs.json

【トレーニングデータ】

画像数:20〜40枚

これ以上を使用すると再現性が低下する可能性があります。量より一貫した品質が重要です。

画像は、同じイラストレーター、TVシリーズなど、一貫したアートスタイルのものを使用するのが最適です。

ファンアートの場合は、可能な限り一貫したアートスタイルのイラストを集めるよう心がけてください。

本トレーニングでは、日本のZUNKOプロジェクトが公開しているAIトレーニングデータを借用しました:https://zunko.jp/con_illust.html

zunkoが同じ衣装を着ている20点のイラストを選出し、768x1024のPNG画像をWEBP形式に変換しました。

*sd-scriptはWEBPファイルをサポートしており、ファイルサイズが遥かに小さいため、私はWEBPを使用することを推奨します。

【タグ付け】

WebUIのwd14taggerを使用して画像に再タグ付け:

モデル:moat-tagger-v2

重み閾値:デフォルト0.35

  1. 「Batch from directory」を選択
     入力および出力ディレクトリのパスを設定

  2. 追加タグ:「zunko,score_9,source_anime,znkAA」

 キャラクター名:zunko
 トリガー語:znkAA
 品質タグ:score_9, source_anime

  1. 除外タグ
     - キャラクターの特徴(緑髪、黄色い目、長髪など)はすべて削除
     - 衣装の特徴は1つだけ残す(「japanese clothes」を保持)

 私が除外した単語のリストを添付しているため、それを除外タグフィールドに貼り付ければ同様の結果が得られます。

 理想的には、トリガー語にすべてを統合したいですが、トレーニングステップが少ない場合、モデルは「znkAA」が衣装を指すことを学習するのが難しいです。

 そのため、モデルが既に「japanese clothes」として認識している衣装の特徴に吸収させ、それに「znkAA」を補足として追加しています。

 - キャラクターのポーズ、構図、望ましくないオブジェクト(リボン、本、食べ物など)のタグは残してください。

【トレーニング開始】

kohya_ssを起動し、「LoRA」タブを選択してください。DreamBoothタブが選択されている状態でLoRAプリセットを開かないように注意してください。

プリセットを添付しているので、ダウンロードして設定から「Open」してください。

ファイルおよびソースモデルのパスを、ご使用の環境に合わせて調整してください。また、アクセラレータに応じてMixed precisionとSave precisionの設定を調整してください(例:fp16)。

基本設定:

オプティマイザ:prodigy、LRスケジューラ:1
dim:16、Network Alpha:2
バッチサイズ:3、繰り返し回数:1、エポック:50

VRAMが不足してOOMエラーが発生した場合は、fp8トレーニングオプションを有効にしてください。

私の環境では、50エポックに14分かかりました。PCのスペックによって時間は異なります。

【選定】

最後に結果を確認し、お気に入りのエポックを選んでください。50エポックはあくまで目安であり、最終エポックが必ずしも最適とは限りません。

設定は10エポックごとに保存されますが、5エポックごとに保存したほうが良いかもしれません。

トレーニングデータとモデルがよく適合している場合、すぐに収束することがあります。

このモデルで生成された画像

画像が見つかりません。