[Negative LoRA] for RouWei - v0.6.1 vpred
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
警告: このLoRAはv-predチェックポイントでのみ動作し、特にRouWei v0.6.1 v-pred用です。
RouWeiは_Minthybasis_が開発したIllustriousベースのモデルです:(/model/950531?modelVersionId=1130140)
ポジティブプロンプトに記入:
ネガティブプロンプトに記入(任意):
(by pfc:1.0)
推奨強度: 0.1 ~ 1.0
モデルの説明:
これは、RouWeiを使用して出力の美的品質を向上させるための実験的な試みです。このLoRAの適用により、細部の解像度の向上、解剖学的詳細の修正、背景の細部の追加などが可能になります。
バージョンv2は最初のバージョンであり、改善の余地は十分にあります。
既知の制限:
ネガティブプロンプトに「by pfc」を含めても、効果がない場合があります
LoRAの強度をあまりにも高めると、トリガーワードなしでも画像が「ポニー化」する可能性があります
高いCFGスケールで不自然なアーティファクトが発生することがあります
データセット/学習詳細:
データセットは、CivitAIから取得した360枚のAI生成画像で構成され、主にPony Diffusion XL / Animagine由来のモデルです。
仮説としては、RouWeiが持つ膨大なアーティストの知識を利用して、「ポニー」スタイルを独自のトークンに関連付け、それを否定的に使用できるようにすることです。
学習に使用した画像のほとんど(すべてではありません)は、以下のいずれかの問題を抱えていました:
高周波の細部
薄い色調
微妙なブロム/ハゼ
不自然または奇妙な顔
単調な構図
私が気に入らない
これらの画像はすべて、「by pfc」とキャプションされており、これは学習前にはほとんど影響のない希少トークンです。
その他の詳細:
RTX 4090でバッチサイズ8、勾配蓄積ステップ8、60エポック(100エポック中)を学習(約2時間)
100エポックに達する前に学習を停止したため、おそらく学習が不十分です
U-netのみを学習
Network/ConvのRankは8、Alphaは4で効果を抑制
最新かつ最良のProduceWithScheduleFree最適化器を使用(https://github.com/kohya-ss/sd-scripts/issues/1796)—v-predモデルは学習が難しいため
Debiased Estimation LossはMin Gamma SNRより優れている
今後の計画:
データセットをさらに醜い画像だけに拡張/精査
DoRAで学習を試す
タグを使用して学習を試す(結果が悪化しない場合)



















