shaosiming_少司命——秦时明月

詳細

ファイルをダウンロード

モデル説明

秦時明月の少司命用LoRAモデル。高解像度画像が入手しづらく、学習データセットの品質が低いことから、主に動画スクリーンショットや宣伝ポスター画像を使用。国風3(guofeng3_v32.ckpt [0bb33c7041])モデルをベースに、Dreamboothプラグインを使用してLoRA学習を行った。最終的な学習結果は、ベースモデルのウェイトが1の場合、顔の識別率が高く、ベースモデルを使用する際にマスクが半分以上の確率で生成される。他のモデルではマスクがほとんど出現せず、顔の識別度も低い。衣装は複雑なため、別途学習を行っていないため、再現度も低い。これは個人初のモデル学習であり、必ず問題点が残るが、ある程度の使い勝手は確保できる。より良いモデルを期待する。

(※複数のベースモデルでテストした結果、LoRAウェイトが1~1.4の範囲で最も良好な結果が得られ、マスクが出現しない場合、適宜「veil」タグを強化してみることを推奨)

2.0バージョンモデルは秋葉のLoRA統合パッケージを使用して学習。既存のデータソースから透明背景画像をすべて白背景に変更し、解像度の統一裁剪は行わなかった。モバイル3080 GPUを使用して統合パッケージで学習したところ、同程度のデータ量でも学習時間は約30分程度で、出力パッケージのサイズが小さく、品質もより向上。1.0バージョンのようなぼやけた結果は発生しなくなり、他の様々なモデルとの統合も容易に。全体の画色が紫色に偏る現象も解消。2.0バージョンのLoRAモデルでは、ウェイトが0.5~0.8の範囲で最も安定した結果が得られ、0.6以上に設定するとマスクが出現しやすくなる。

ウェイトを0.4に設定すると、モデルの本質的特徴を保持しつつ、ポージング・衣装・背景の変更にさらに自由度が高まるため、より汎用的だがやや再現度が低い画像の生成が可能になる。

初期解像度540x960。R-ESRGAN 4x+拡大アルゴリズムを使用し、リダクト量0.3で2倍に拡大して高精細化。その後、画像生成→画像生成(img2img)でSD upscaleスクリプトを適用し、同様のアルゴリズム、リダクト量0.1で超解像拡大することで、品質の高い4K高精細画像を得られる。(この方法では最初から1080P画像を生成するため、出力結果は「運」に左右されやすく、大量生成には不向き。16GB GPUでは同時に4枚まで生成可能で、生成・修整の効率は低いが品質は高い。)

shaosiming_少司命——秦時明月 - v2.0 | 吐司 [Blocked Link] (tusiart.com)(ここでオンラインで画像生成の効果を確認可能。高精細化を有効にすると顔抽出による運営抽選風体の画像生成が可能。速度は良好。毎日無料枠あり)

このモデルで生成された画像

画像が見つかりません。