CognitiveRiver

詳細

ファイルをダウンロード

モデル説明

新しい目標

元の目標は4ステップと肌の質感でしたので、新しいモデル名を付けようかとも悩みました。この新しいモデルは11〜15ステップで最も良い結果を出しますが、肌の細部の表現は依然として良好です(ただし、一部のFLUXモデルと比較するとがっかりするかもしれません)。リアルなモデルに惹かれたのは、非現実的なプロンプトへの対応が不足していたからです。青や紫などの非現実的な肌色、あるいは赤や紫などの目の色をプロンプトに含めたいとき、それができませんでした。そのため、今回は現実的でありながら、ファンタジー/SFの表現も可能なモデルを目指しました。

このモデルに多くの時間を費やしましたが、有料ではありません。そのため、寄付は大歓迎です。

Illustrious

これは私がIllustriousモデルに挑戦したものです。Pony v3のバージョンをほぼ完成させかけましたが、おそらく今後も作るかもしれません。ただ、最近はそれに対する関心がそれほど高くないようだと感じています(フィードバックは歓迎します)。いずれにせよ、Illustriousモデルでリアルなスタイルを作るのは非常に難しいです。もともとv-predのコントラストの明るさに惹かれてここに目を向けました。いくつか試行錯誤してバージョンを作成しましたが、失敗を繰り返した末、今のところ諦めました。このバージョンにはまだ良い照明制御の要素がありますが、v-predが達成できた可能性よりは劣ります。多くのIllustriousモデルは肌が滑らかすぎたり、斑状に見える奇妙なフィルムグレインが入っていたりするため、試してみたかったのです。

このモデルは約1500枚の画像を使って、手作業でタグ付けしたデータからゼロから学習させました。ユーザーが多くの制御ワードを使えるようにすることが目標です。トークンと自然なプロンプト、パディングのバランスをまだ模索中なので、タグが常に機能するとは限りません。また、これはDMD2モデルであり、CFGガイドanceとステップ数のトレードオフがあります。今後、新しいリリースで引き続き調整していく予定です。

このモデルは高解像度モデルです。1280ピクセルの画像で学習されています。

設定

VAE: VAEは既に組み込まれています。

サンプリング方法: 今回、Euler Aが最も良い結果を出しました。シンプルに保ちたいのでこれを使っています。LCMも動作しますが、肌やテクスチャーの細部を滑らかにしすぎてしまう傾向があります。ただし、その効果を望む場合は使えます。一つのテクニックは、メインサンプラーにLCMを使い、高解像度処理(Hires)の段階でEuler Aを追加して細部を再び追加することです。

スケジュールタイプ: Karrasが最も良いです。Align Your StepsやTurboもかなり良好です。

ステップ数: 上記のように、11〜15ステップでバランスをとりました。4〜5ステップまで縮めたい場合は、lora:dmd2_sdxl_4step_lora:0.4を組み合わせてください。ただし、その場合、細部の品質やCFGの幅(すでに制限されています)の使用に一部犠牲が生じます。

CFGスケール: 1〜2の間。値が低いほど、色が中立的でリアルになり、高いほどやや鮮やかになります。ただし注意:値が低いと、ネガティブプロンプトの効果が弱まります(それが重要なら)。CFG=1ではネガティブプロンプトが無効になり、1.5では一貫性が得られにくかったです。2でようやくちゃんと反応するようになったのです。上記の4–5ステップ範囲を使う場合、CFGは1〜1.25に制限されます(ネガティブプロンプトの使用がさらに制限されます)。

解像度: このモデルは高解像度モデルなので、1280ピクセルで最適ですが、1024ピクセルでも十分に使用できます。

  • 1280x1280
  • 1152x1408
  • 1024x1536
  • 896x1664

Hi-Res. fix: 解像度がすでに高いため、拡大率は1.25までに抑えることをお勧めします。1.5にすることもできますが、処理が遅くなります。私は4x_NMKD-Superscale-SP_178000_Gをアップスケーラーとして使用しています。ステップ数はサンプリングと一致させます。ノイズ除去は0.25。標準的な設定です。

タグガイド

このガイドは参考用です。モデルが常にすべてのタグに従うわけではなく、Illustrious自体が膨大なタグを持っているため、網羅的ではありません。

クオリティ

“masterpiece”、“very awa”、“year 5000”などのフィラータグは必要ありません。使いたければ使ってください。ただ、個人的にはトークンの無駄だと思います。クオリティ/解像度という単語を含むタグ(例:best quality、high quality、amazing quality、high resolution、または負のプロンプトではbad quality、low resolution)を使うだけで十分です。これらは必要なく、デフォルトでもクオリティは十分良いはずです。

カメラ

ズーム:

Closeup / Portrait, Medium Shot, Cowboy Shot, Full Shot

これは私を悩ませており、今後も改善を続けます。以前はもっと多くのタグを追加していましたが、非常に不安定でした。

角度/向き:

High Angle / From Above
Low Angle / From Below
Side View
Back View / From Behind
Upside Down (head is closes to camera than body)
Titled Angle, Dutch Angle (以前は動作していましたが、今はできません)

フォーカス: クローズアップで強調したい体の部位を指定してください。例:

Feet Focus, Face Focus, Back Focus, Breast Focus, Butt/Ass Focus... 他にも同様です。

スタイル

Realistic Style, Anime Style
  • ベーススタイル(追加不要):私自身が好む、デフォルトのスタイルです。

  • リアルなスタイル:より写真に近い、肌のクセや細部が豊かで、あごのくぼみが少なく、人種のバリエーションが豊かです。

  • アニメスタイル:肌が滑らかで、目が大きく、髪の色やスタイル、表情のバリエーションが豊かです。

コスプレ

まだ実験段階です。非公開のPony 3モデルでは非常にうまく動作していましたが…。いずれにせよ、「cosplay」というタグを追加すると、キャラクターがその人物に似ているのではなく、その人物に扮しているように描かれます。まだ改善中ですが、リアルなスタイルで使うと成功しやすいです。

人物なし

この点の対応は十分ではありませんでしたが、改善の余地があります。人物を表示させたくない場合は、以下のようなヒントがあります:

希望する被写体と「写真」の単語を組み合わせてください。例:

Food Photography, Landscape Photography, Macro Photography, Product Photography, Wildlife Photography
No person, No People

照明

すべてが常に効果的というわけではありませんが、試してみてください:

dim lighting
Dark lighting / room
studio lighting
natural lighting
soft lighting
candlelit lighting
indoor lighting
outside lighting
bright lighting
moody lighting
dramatic lighting
stage lighting
[color] lighting / filter. Dim Lighting と Dark Room / Lighting と組み合わせるのが最適です。

ボディ

肌の色:

fair skin, light skin, pale skin, olive skin, tan skin, medium skin, dark skin, black skin, white skin, grey skin, red skin, orange skin, yellow skin, green skin, blue skin, purple skin

サイズ/シェイプ:

Thin, Petite, Slender, Slim, Curvy, Chubby, Fat, Athletic, Muscular, Thick Thighs, Thigh Gap

胸のサイズ:

flat chest, small boobs, perky breasts, medium boobs, large boobs, huge boobs. boobs または breasts どちらも使用できます。

お尻のサイズ:

small butt, large / round butt, big / huge butt

顔のコントロール:

High Cheekbones
Sharp Face
Round Face
Long Face
Cute Nose (丸い鼻になります)
Parted Lips
Open Mouth
Full Lips (ふっくらした唇の見た目)
Tongue Out
Eyes Closed

メイク/模様:

Eyeliner
Blush / Blushing
[color] lipstick
Lipgloss (ツヤあり)
Tattoo / Tattoo on [body part]
Freckles

目の色:

Blue Eyes
Green Eyes
Red Eyes
Pink Eyes
Purple Eyes
Orange Eyes
Yellow Eyes
Black Eyes
Brown Eyes
Grey Eyes
Amber Eyes
Hazel Eyes
Heterochromia
Glowing Eyes

表情:

Happy / Smiling
Sad
Neutral Expression
Serious Expression
Sexy Expression
Playful Expression
Angry
Surprised Expression / Shocked Expression

ポーズ:

Standing, Sitting, Kneeling, Squatting, Doggy Pose, Laying on Stomach, Laying on Side, Arm Support (腕をついて寄りかかる), Leaning Back, Handstand, Leg Split, Leg(s) Up (片方だけならLeg、両方ならLegs), Yoga Pose, Bent Over, Legs Spread, m-pose (仰向けで両脚を広げ、膝を曲げる), Bent Knee

アントロ(フューリー)/生物

リアルな生物とフューリーの両方をモデルに描かせるのは非常に難しいです。私は80%程度まで到達したと思っています。Ponyはアントロには優れていましたが、生物には弱かったです。男性バージョンが欲しい場合は、「male」とタグをつけるとよいですが、男性フューリーの学習データはそれほど多くありません。ごめんなさい。

[Creature] = ただの生物

[Creature] Girl / Woman = その生物に着飾った女性

[Creature] Girl / Woman, anthro / anthropomorphic = その生物に変身する(効果はまちまちで、完全なフューリーになることもあります)

[Creature] Girl / Woman, furry = つまり…フューリーです

多くの生物で学習しましたが、私の理想ほど堅牢ではありません。「堅牢」とは、学習していない新しいものにも対応できることを意味します(Ponyはこの点で非常に優れていました)。したがって、結果は使用する内容によって異なります。

また、非現実的な生物にも対応しています:

Slime Girl, Tieflings, Elves(ダークエルフ、ナイトエルフを含む)、Demons / Succubus、Fairies、Giantess、Monsters、Goblins、Orcs、Dwarves、Lamia(半蛇だが、半蛇半女で使用するとより良い結果を得られる)、Oni、Robots、他にもいくつか抜けている可能性あり…

PONY

目標

私はSDXL Lightningモデルのスピードと画像品質をとても気に入っていました。ただし、SDXLは肌をあまりにも「完璧」に滑らかにしすぎて、少しプラスチックのように感じられ、好きではありませんでした。最良の回避策の一つは、SDXLで生成した後、顔部分に1.5モデルとADetailerを使用することです。私の目標は、この追加ステップなし、またはモデルを切り替えることなく、顔を生成できるかどうかを検証することでした。このモデルはアニメやアートではなく、写真用にのみ開発されました。それらの分野にはより良いモデルが他にも存在します。

PONY VERSION 2

前回のリリースでは、Hi-Res fixに頼りすぎ、通常の画像品質に十分な注目を払っていませんでした。今回はそれを修正しました。最初のいくつかの画像例は通常の品質になっています。この修正により、高品質(Hi-Res fix)の画像はこれまでよりもさらに良くなりました(その例もいくつかあります)。また、今回のリリースでは設定を緩和し、より自由な生成を可能にしました。良いPonyモデルはたくさんのありますが、それらはほとんどTURBOモデルではないようです。このモデルでは、高速(4ステップ)で良質な結果を得るか、通常速度(15ステップ以上)で最高品質を得るか、選択できます。長文のプロンプトやスコアタグは必要なく、最初の画像はできるだけシンプルなプロンプトで生成しています。

設定

VAE: 組み込まれています。

サンプリング方法: LCMが最適です。Euler Aは特定の設定では機能しますが、肌の質感がやや不自然になるため、LCMほど優れていません(試してみてください)。Hires fixは必須です。DPMは避けてください。

スケジュールタイプ: 4ステップの場合はDDIMまたはKarras。10ステップ以上ならBetaまたはNormalも使用できます。15ステップ以上ならSGM Uniformも追加できます。

ステップ数: 4ステップから。Hi-Res fixをオンにせずに詳細を増やしたい場合は、ステップを増やしてください。

DDIM / 4+

Karras / 4+

SGM Uniform / 15+

Beta / 10+

Normal / 10+

CFGスケール: 1〜1.5。個人的には1.25が好みですが、ご自身のスタイルに合う値を見つけてください。

その他: 解像度、LoRA、ControlNetなど、その他の設定は他のSDXLモデルと同様です。


PONY VERSION - DPM

LCMが使えないユーザーのためにDPM版を作成する要望がありました。正直、LCMの方が良い画像を生成できると思いますが、DPMの方が一般的であることは理解しています。

設定

VAE: 組み込まれています。

サンプリング方法: DPM++ SDE または DPM++ 2S a

スケジュールタイプ: Karras または DDIM

ステップ数: 4ステップ。5ステップにしても構いません。

CFGスケール: 1〜1.5(基本は1、明るくしたい場合は1.2)

このモデルは、私が作成したSDXL 4ステップモデルと同様の設定推奨ですので、ライオンの画像はSDXLモデルで生成し、その後PONY Version DPMでHi-Res fixを適用した例です。


PONY VERSION - LCM

ついにPony版のLCMモデルを作成しました。SDXLは素晴らしい機能を持っていますが、Ponyはプロンプトやキャラクターロラに対してより柔軟です。そのため、すべてのショーケース画像でキャラクターロラを用いて、その可能性を示しました。モデルそのものの実力を示す他の画像は、以下に別途アップロードしています。

設定

VAE: 組み込まれています。

サンプリング方法: LCM!これは他のモデルとは異なりますが、肌の細部が非常に鮮明で、超高速です。LCMが使えない場合はEuler Aも使用できますが、アーティファクトが増える可能性があります。

スケジュールタイプ: Karras!これも前回とは異なります。Euler Aを使用する場合は、SGM UniformまたはBetaをお勧めします(DDIMはリスクを冒して、より落ち着いた色調を望む場合に)。

ステップ数: 4ステップ。ついに、真の4ステップモデルを実現しました。

CFGスケール: 1〜1.2(基本は1、明るくしたい場合は1.2)

その他の設定: 解像度、LoRA、ControlNetなど、他のSDXLモデルと同様に設定してください。

高解像度: 設定は同じですが、LCMとKarrasを使用し、ステップは4ステップのみです。このモデルの速度が非常に速いため、私は常に高解像度修整を有効にして、ノイズ除去強度を0.3に設定してレンダリングしています。

ミックス: 私が好んで行うもう一つの方法は、私のSDXLモデル(もし興味があれば、LCMバージョンも作成しています)を初期チェックポイントとして設定し、高解像度修整のチェックポイントをPonyバージョンに設定することです。これにより非常に良い結果が得られ、画像の2番目のリストにその例を1つアップロードしています。


4ステップ版

4ステップ版のリクエストがあったため、これを作成しました。若干のミックスで安定化させたため、真の2.0版とは言えませんが、私の次のバージョンよりは2に近いと感じており、多くの生成で改善を試みました。以下にさらに詳細を記しますが、簡単にまとめると、このモデルは4ステップで動作しますが、私自身は5ステップの方がやや明瞭な結果を得られると感じています。ただし、実際にご自身で試してみてください。

4ステップのLightningモデルに慣れていない方のために、以下にこのモデル向けの推奨設定を記します。これは8ステップ版とは異なります。どのバージョンが好まれるか(8ステップ版を継続するか、4ステップに切り替えるか)興味があります。基本的には8ステップの方がよりシャープな結果をもたらしますが、ステップ数を減らすことで処理速度が向上し、アップスケーリングも非常に効果的で、時間の節約になります。ベース画像、アウトオブボックスのアップスケーリング画像、およびimg2imgによるアップスケーリングの例を2つ含めました。

私の設定

繰り返しますが、自由に実験してください。以下はあくまで私の設定です。

VAE: ベイク済み

サンプリング手法: 私のお気に入り順:DPM++ 2S aDPM++ SDEDPM++ 2M SDE HeunDPM++ SDEDPM++ 2M。EulerやEuler aは結果がぼやけすぎたり、逆に鋭くなりすぎたりするため、あまり好みではありませんが、もちろん自由に試してください。

スケジュールタイプ: SGM Uniform!

ステップ: 4–8、私の最適値は5です。7–8ではよりシャープなディテールが得られますが、肌が不自然に見え始めます。

CFGスケール: 1–1.2(ぎりぎり1.5までなら可能です)が、それ以上にするとアーティファクトが発生し始めます。基本は1で固定してください。

その他の設定: 解像度、LoRA、ControlNetなど、他のSDXLモデルと同様に設定してください。

img2imgアップスケーリング/スタイル変更

アップスケーリングの例を2つ含めました。多くの優れたアップスケーリング手法は、実際には1.5モデル用に設計されています(例:Ultimate SD Upscale)。しかし、ここではAutomatic1111を使用した2つの例を示しますが、ComfyUIでも同様に動作すると考えられます(こちらは含めていません)。

Ultimate SD Upscale

最初の例(サイバーパンクの少女)は、img2imgに画像を投入し、Ultimate SD Upscaleを使用します。結果は様々で、SDXLにはあまり向いていませんが、ベース画像がタイル化ではなく1回の処理で済む場合(タイル化すると境界部分に悪影響が出ます。パディングやマスクぼかし、ハーフタイル、チェスパターンを増やしても結果は不安定でした)、ある程度良い結果を得られます。「Just Resize」に設定し、上記と同じサンプリング手法を使用してください。

プロンプト: プロンプトはあまり複雑にしなくてもOKです。「detailed」などシンプルな言葉でも十分効果があります。

ターゲットサイズ: 画像サイズに拡大する際、ベース画像が上記の通常のSDXL出力サイズ内であることを確認してください。

スケール: 1.25–1.5(それ以上にすると境界部分に悪影響が出ます)

アップスケーラー: お気に入りのものを使用してください。私は4x_fooldhardy_remacri、1x-ITF-SkinDiffDetail-Lite-v1が好きですが、アウトオブボックスでR-ESRGAN 4x+でも十分使えます(ただし肌が少し不自然に見えることがあります)。

タイル幅: 画像の幅と同じ値に設定してください。例えば768x1280の画像なら、1280に設定します。

タイル高さ: 私は0のままにしていますが、画像の高さや他のSDXL設定と同等に設定しても構いません。

ノイズ除去強度: 0.2–0.6。画像の種類によります。この設定には2つの目的があります:画像の解像度を上げるか、それともこのモデルのスタイルに変更したいか。単に解像度やサイズを上げたい場合、ノイズ除去強度は低めに保ってください。数値が低いほど変更は少なくなります。一般的には0.3から始めますが、0.5も良い結果になります。

マスクぼかし: 8、16

パディング: 32、64、128

アウトオブボックス、SD Upscale / ControlNet

(ビーチの少女)私はこの方法を好んでいます。より一貫した結果が得られるためです。ただし、アップスケーリングを段階的に行う必要があります(Ultimate SD Upscaleは自動で段階を処理します)。これにより、各ステップでより多くの制御が可能です。img2imgタブのスクリプトで「SD Upscale」を選択してください。「Just Resize」に設定し、上記と同じサンプリング手法を使用してください。

プロンプト: 上記のように、低いノイズ除去強度であれば「detailed」で十分です。高いノイズ除去強度を使用する場合は、事前に画像にInterrogate CLIPを適用して、類似のプロンプトを生成することをお勧めします。

タイルオーバーラップ: 128

スケール係数: 1.25–2

アップスケーラー: 上記と同じ

ノイズ除去強度: 上記と同じ。私は画像を段階的にアップスケーリングするのが好きです。最初は低い数値から始めて、徐々に変更を加えます。アニメーション画像なら2–3回、すでに写実的な画像なら1回程度で十分です。

ControlNet: ControlNetを使用するとより良い結果が得られます。基本的なOpenPoseでも構いませんが、DepthやCannyも効果的です。SDXLモデルを使用していることを必ず確認してください。設定はデフォルトのままにしています。

スタイルを変更したい場合、複数の段階で処理する場合は、各段階の後で画像を元のサイズに戻す必要があります。外部ツールまたは「Resize to(Just Resize (latent upscale))」機能を使用して、ベースサイズにリサイズしてください。


8ステップ版

モデル

私のカスタム1.5モデルから約400枚の高品質画像を収集し、これをLoRAスタイルに変換した後、下記の2つのモデルをミックスしたモデルに再びブレンドしました。その結果、肌のテクスチャがより豊かになり、不規則性、ひび割れ、毛穴、ディテールなどが強調されました。

RealVisXL V4.0 - V4.0 Lightning (BakedVAE) | Stable Diffusion Checkpoint | Civitai

Pixel Alchemy - H v2.0 | Stable Diffusion Checkpoint | Civitai

写真例

私は良いプロンプトを作成するのが得意ではありません。そのため、多くのプロンプトは他者からの借用やランダムプロンプトジェネレーターの出力です。いくつかのシンプルなプロンプトも含めました。これは、複雑なプロンプトが必ずしも必要ではないことを示すためです。単純なプロンプトでも高品質な画像が生成できます。

他のSDXLモデルと同様に、ポジティブプロンプトにscore_9、score_8_up、score_7_up、score_8を追加し、ネガティブプロンプトにscore_1~score_6の組み合わせを追加することで、画像品質を向上させることができます。

私の設定

最適な設定を見つけてください。以下はあくまで私の設定です。

VAE: ベイク済み

サンプリング手法: DPM++ SDE または DPM++ 2S a

スケジュールタイプ: Karras

サンプリングステップ: 8

画像サイズ: 1024x1024、768x1280、832x1216

CFGスケール: 1–3(通常は2が最適)

Clip Skip: 1–2(ほとんどのSDXLモデルでは2に設定されますが、こちらは写真に特化しているため、あまり重要ではありません)。

高解像度

アップスケーラー: お好みで。私は4x_NMKD-Siax_200kが好きです。

高解像度ステップ: 8

ノイズ除去強度: 0.3–0.6

高解像度CFGスケール: 2

アップスケール倍率: 1.5

このモデルで生成された画像

画像が見つかりません。