FKEY 画风模仿 STYLE DREAMBOOTH
詳細
ファイルをダウンロード
モデル説明
【本モデルの学習過程では、素材の出典作者の許可を得ていません。不適切と判断された場合は直ちに削除します。】
【本モデルおよび生成された画像をいかなる商業目的にも使用しないでください!】
【本モデルを利用して不適切な画像を生成・配布しないでください!!】
学習方法:
このDreamboothはGitHub上のkohya学習パッケージを使用しています。
学習にはRTX A6000を用いました。
学習素材はFKEY先生の作品70点で、そのうち顔と上半身が明確に写っている画像をさらにクロップし、合計134枚の学習データセットを構成しました。
すべての画像を1024×1024にクロップしました。全身および半身画像は768×1024または1024×768にリサイズした後、残りの空き部分を黒背景で埋めました。
顔画像(44枚)の繰り返し回数は25回、上半身画像(56枚)は10回、全身画像(34枚)は6回と設定しました。
タグ付けにはDanbooru(0.7)+swinv2_tagger_v3(0.35)を用い、自動タグ付け後、'boy'に関連するタグのみ削除し、その他のタグは一切修正していません。
トリガー語句として「fkey70」を追加しました。SDXL版のDreamboothにおいて、トリガー語句がないと学習が収束しにくいようです。
shuffle captionを有効にしましたが、「fkey70」は固定しました。
グローバル学習率は1e-6、学習率スケジューリングはconstant、最適化器はAdamW8bitを使用しました。
ノイズオフセットは無効にし、enable bucketオプションはオフにしました。
REG画像は関連ウェブサイトから取得し、合計320枚使用しました。これは学習データセットの約2倍以上です。
保存方法はステップごとで、2500ステップごとに保存しました。
最大ステップ数は150,000ステップを予定していました。50,000~100,000ステップではスタイルの再現性と豊かさが良好でした。100,000~120,000ステップで過学習が画像に影響を及ぼし始め、120,000~150,000ステップでは生成される画像は完全に使用不能となりました。
テストの結果、70,000ステップと75,000ステップのモデルが元の特徴と汎化性のバランスが最も優れていたため、公開用に採用しました。
学習時のclip skipは1でしたが、画像生成時は2を使用しました。
混合精度学習を採用しました。
画像生成:
Adetailerの使用を強く推奨します。
通常の画像生成にはEuler Aを約28ステップで使用します。ステップ数が多すぎると肢体が不自然になる傾向があります。CFGは5~7の範囲が適切です。
Adetailerを使用する場合は、一部のパラメータが通常の画像生成と異なります。
AdetailerではDPM++ 3M SDE Karrasを約40ステップで使用します。
顔の高精細化にはより多くのイテレーションが必要です。CFGは約8に設定してください。
元の素材には猫耳の要素が多いため、生成するキャラクターに猫耳を含めない場合は、ネガティブプロンプトに「animal ears」と「cat ears」を追加することを推奨します。










