[Negative LoRA] for RouWei - v0.6.1 vpred

詳細

ファイルをダウンロード

モデル説明

警告: このLoRAはv-predチェックポイントでのみ動作し、特にRouWei v0.6.1 v-pred用です。

RouWeiは_Minthybasis_が開発したIllustriousベースのモデルです:(/model/950531?modelVersionId=1130140)

ポジティブプロンプトに記入:

lora:rouwei_neg_by_pfc:1

ネガティブプロンプトに記入(任意):

(by pfc:1.0)

推奨強度: 0.1 ~ 1.0

モデルの説明:

これは、RouWeiを使用して出力の美的品質を向上させるための実験的な試みです。このLoRAの適用により、細部の解像度の向上、解剖学的詳細の修正、背景の細部の追加などが可能になります。

バージョンv2は最初のバージョンであり、改善の余地は十分にあります。

既知の制限:

  • ネガティブプロンプトに「by pfc」を含めても、効果がない場合があります

  • LoRAの強度をあまりにも高めると、トリガーワードなしでも画像が「ポニー化」する可能性があります

  • 高いCFGスケールで不自然なアーティファクトが発生することがあります

データセット/学習詳細:

データセットは、CivitAIから取得した360枚のAI生成画像で構成され、主にPony Diffusion XL / Animagine由来のモデルです。

仮説としては、RouWeiが持つ膨大なアーティストの知識を利用して、「ポニー」スタイルを独自のトークンに関連付け、それを否定的に使用できるようにすることです。

学習に使用した画像のほとんど(すべてではありません)は、以下のいずれかの問題を抱えていました:

  • 高周波の細部

  • 薄い色調

  • 微妙なブロム/ハゼ

  • 不自然または奇妙な顔

  • 単調な構図

  • 私が気に入らない

これらの画像はすべて、「by pfc」とキャプションされており、これは学習前にはほとんど影響のない希少トークンです。

その他の詳細:

  • RTX 4090でバッチサイズ8、勾配蓄積ステップ8、60エポック(100エポック中)を学習(約2時間)

  • 100エポックに達する前に学習を停止したため、おそらく学習が不十分です

  • U-netのみを学習

  • Network/ConvのRankは8、Alphaは4で効果を抑制

  • 最新かつ最良のProduceWithScheduleFree最適化器を使用(https://github.com/kohya-ss/sd-scripts/issues/1796)—v-predモデルは学習が難しいため

  • Debiased Estimation LossはMin Gamma SNRより優れている

今後の計画:

  • データセットをさらに醜い画像だけに拡張/精査

  • DoRAで学習を試す

  • タグを使用して学習を試す(結果が悪化しない場合)

このモデルで生成された画像

画像が見つかりません。