PonyDiffusion Quality Slider
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
このモデルは「品質」を向上させます
おそらく、あなたは「品質」とは何なのかと疑問に思っているでしょう。残念ながら、私はその質問に直接答えることはできませんが、このモデルは、Pony Diffusion V6 XLが持つ忌まわしい品質タグというモンスターにより生成された画像を学習データとして使用していますが、キャプションには品質タグは含まれていません。つまり、このモデルは「品質タグ」を追加せずに、品質タグを追加した場合の出力を模倣するように学習されました。
なぜこのようなことをしたのか?
私は、品質タグが異常に長く、かつ極めて制御しにくいことに驚き、品質をスライダーで制御できるLoRAを作成することに決めました。これにより、品質の制御をより微調整可能で多様な方法で行うことができ、さらにプロンプト内のトークンを節約できます(これは、アテンションの不要なBREAKを避けるのに役立ちます)。
どのようにして作成したのか?
私はGitHub上のP1atdevによる、LECO論文を基にしたLECOトレーニングスクリプトを使用してこのモデルを学習しました。LECOトレーニングプロセスでは、任意のノイズ除去強度で画像を生成し、概念をプロンプトに含めた場合と含めない場合のモデル出力の差異をもとに学習します。これにより、モデルはタグ、単語、概念、またはフレーズを任意のプロンプトにアライアス(別名として登録)できるようになります。この場合、私は
score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up
という「品質文」を
アライアスしました。
つまり、私はこのモデルを、常に「品質文」がプロンプトに含まれているかのように出力するように訓練したのです。
寄付について
トレーニングの話になりますが、モデルのトレーニングは費用がかかり、私は自宅のプライベートサーバーでトレーニングを実行しています。私の活動に賛同してくださる方は、開発をサポートしていただけると幸いです!
主なメリット
このアプローチの最も好きなメリットの一つは、「品質」をモジュラーで制御可能な要素にすることです。品質タグの重みを増すと出力にやや謎めいた影響を与える一方で、このLoRA/LECOは非常に明確で理解しやすい変化をもたらし、LoRA/LECOの重みを調整することでその強さを制御できます(これは意図された操作です)。一方、重み付きプロンプトはアテンション層に適用されるハックであり、常に望ましい効果をもたらすとは限りません。
もう一つのメリットは、このLoRA/LECOが「品質文」に使われる33トークンを消費しないことです!これは、コンテキストウィンドウの半分に相当します。コンテキストウィンドウを消費すると、A1111、InvokeAI、ComfyUIなど、使用しているバックエンドがアテンションに見えないBREAKを追加せざるを得なくなり、構築しているプロンプトの全体的な整合性を損ない、他の意図しない結果を引き起こす可能性があります。
特徴(クィークス)
このモデルのv1はかなり弱く、重みが2〜3の範囲で安定して動作するようですが、重みが6まで上がると依然としてその出力は認識可能です。
v3は標準的な重み動作をします。通常のLoRAと同じようにご利用ください。
v3は必ずプロンプトにレーティングタグとソースタグを含める必要があります。
このモデルはPonyDiffusion V6 XLでのみ学習・テストされています。他のモデルとの互換性は保証できません!
モデルv1は背景をより「絵画的」に変更する傾向があり、高強度になると背景が被写体よりもはるかに早く崩壊します。画像の背景にこだわる場合は、このモデルを補助的に使用することをお勧めします。
v4についてはまだ完全にテストしていません。異常な動作があれば、お知らせください。
私はモデル内で「品質」という概念を抽出し、類似する概念から分離しようと努力しましたが、限界があります。生成物の内容に意図しない変化が生じる可能性があります。このような異常について議論したい場合は、DiscordのFurry Diffusionサーバーへお越しください。
参加後、以下のスレッドをご覧ください:
https://discord.com/channels/1019133813105905664/1214131180572639312
v2がどこに行ったのかとお思いでしょうが、あまりにもひどかったため、コミュニティに公開するわけにはいきませんでした。








