Taikaponi

これは「Train Difference」を用いて、異なるチェックポイントとLoRAのマージに対して行なわれた、Ponyベースのチェックポイントマージです。通常のフラットマージではなく、この方法で作成されています。

LoRAはチェックポイントに直接適用されたのではなく、モデルは他のチェックポイントに対して「トレーニング」されました。

目的は、Ponyの「基本品質」を向上させ、その「ネイティブ」なスタイルを変更して、否定的プロンプトを最小限に抑えたより良い画像を生成できるようにすることです。

しかし、私が気づいたのは、「ベースPony」でトレーニングされた一部のLoRAも、その描画スタイルを継承しているため、このモデルに適用すると描画スタイルが歪んでしまうことです。

これはPonyベースモデルであるため、関連するすべてのタグやプロンプトがこのモデルで動作します。また、マージされたモデルであるため、一部の機能が破損している可能性があります。

私はこのモデルで楽しく作業できたので、他の人にも興味を持ってもらえればと思い共有します。これは私のここでの最初のモデルです。ご意見をお待ちしています。

Stable DiffusionモデルやLoRA関連の作業をされているすべての皆様に感謝します。彼らが本当に難しい作業を担っています。

プロンプトを始めるには、Ponyの基本品質トリガー語を使用してください：

score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up,

その後、画像に含めたいプロンプトやアイテムを入力してください。

これらすべてを使用すると、モデルはPonyがこれらのすべてでトレーニングされたため、画像にさらに多くの要素を追加します。scoreタグについての詳細は以下の記事をご覧ください：

「score_9とは何か、Pony Diffusionでどう使うか」

https://civitai.com/articles/4248

ただし、低めのスコアを省略して、例のように組み合わせることもできます。私が主に使用している例：

score_9, score_8_up, score_8, score_9

または

score_9, score_8_up, score_7_up

など。望む品質やスタイルに応じて調整してください。あるいは、画像に何か欠けているように見える場合、低スコアを含めることで改善されることがあります。

長いプロンプトの場合、以下のようにいくつかの単語の強調度を上げるのが有効です：

(detailed:1.2)

これは例として、括弧内の単語やアイテムの注目度を1.2倍に高めます。そのため、長いプロンプトではより頻繁に焦点が当てられます。

Ponyベースであるため、以下のデータ選択タグも活用できます：

source_pony
source_furry
source_cartoon
source_anime

評価タグ：

rating_safe
rating_questionable
rating_explicit

および：

censored
uncensored

キャラクターやスタイル、アーティストも使用できますが、「ベース」スタイルが変更されたため、私の経験では、アーティストやスタイルも異なる方法で描画されます：

一部は劣化します。トレーニングデータの一部が失われているため。
一部は品質が向上しますが、アーティストのオリジナルスタイルが失われ、モデルのスタイルに歪んでしまうことがあります。
一部は以前と同様に動作します（おそらく他のモデルにも含まれていたため）。

LoRAを使用する際、LoRAの強度が高いと奇妙な異常が発生する場合は、0.5程度に下げて、問題が継続するか、LoRAのコンセプトが適用できるかを確認し、その後必要に応じて上下調整してください。

また、CFG Scale=7を使用している場合、CFG Scale=5に下げてみることで修正（または改善）されることがあります。

一部のLoRAは0.8、さらには1.0の強度でも問題なく動作します。

しかし、このモデルは「ベースPony」から離れて学習しているため、他のPonyベースモデルでは問題なく動作するLoRAでも、ここで問題が発生する可能性があります。

否定的プロンプトについては、ベースPonyほど多くは必要ないはずです（おそらく）。他のモデルはこの点で既に改善されており、「Train Difference」はその改善点をこのマージに取り入れています。

否定的プロンプトは通常通り使用できますが、画像の構成にも影響するため、いくつか試してみてください。

私自身は、モデルのトレーニングされたスタイルを活かすため、常に空白の否定的プロンプトから始めます。その後、プロンプティングを繰り返して、不要な要素を除外したり、構成・品質・スタイルを調整します。たとえば、画像に存在すべきでない単語を追加して構成を変えるなどです。

以下に役立つ否定的トリガーを示します。※一部はスタイルの変更を強制します。

リアルな顔を避けるには：

(realistic, lip, nose, tooth, rouge, lipstick, eyeshadow:1.0)

筋肉質な体型を避けるには：

(abs, muscular, rib:1.0)

ボケを避けるには：

(depth of field, bokeh, blurry:1.0)

モザイクや検閲を除去するには：

(censored, mosaic censoring, bar censor, convenient censoring, pointless censoring:1.0)

赤みを除去するには：

(blush, embarrassed, nose blush, light blush, full-face blush, shame, ashamed, shy:1.0)

一部のNSFW効果を除去するには：

(trembling, motion lines, motion blur, emphasis lines:1.0)

二重のおへそを除去するには（euler aとhiresfix使用時に発生）：

(double bellybutton)

透かしやその他のマークを除去するには：

(watermark, signature, text font, username, error, logo, words, letters, digits, autograph, trademark, name:1.0)

一部のLoRAは単純な白背景でトレーニングされているため、それを除去するには：

(simple background, white background:1.0)

アスペクト比と寸法

1024 x 1024 1:1 正方形

1152 x 896 9:7

896 x 1152 7:9

1216 x 832 19:13

832 x 1216 13:19

1344 x 768 7:4 横長

768 x 1344 4:7 縦長

1536 x 640 12:5 横長

640 x 1536 5:12 縦長

その他の比率も使用可能ですが、1440までであれば、キャラクターの形状が歪んだり、四肢が長くなりすぎることがあります。

また、一部のLoRAは特定のアスペクト比でトレーニングされているため、それらの比率でより良い結果が得られます。

解像度を少し変更すると、コンテンツの描画方法や構成が変わることがあります。特に、プロンプトの要素がその解像度に収まりきらない場合（長い/複雑なプロンプト）に顕著です。

画像に存在すべきでない否定的要素を追加しても、構成に何らかの影響を与えることがあります。その影響は大小様々です。

例示された画像は、SD Forgeを使用して作成されています：https://github.com/lllyasviel/stable-diffusion-webui-forge

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

このモデルで生成された画像

モデルタイプ	チェックポイント
ベースモデル	Pony
公開日	4/30/2024
トレーニングワード	score_9, score_8_up, score_7_up, score_6_up, score_5_up, score_4_up