ChromeShineXL

(PixAIで使用する場合、推奨パラメータが適切でない可能性が高いです。インポートに誰かが何を組み込むかは私が制御できないので、ご容赦ください。)

MIX-GEM-XL をベースに開発された、その月の流行スタイルのミックスモデルです。このモデルの主な目的は、明るくダイナミックな照明と優れた背景、そしてセントールやアンドロイドの少女といった非伝統的なプロンプトを組み合わせることです。

ChromeLightXL はこのモデルのスタイル抽出用モデルです。私の観察では、このスタイル抽出モデルは元のモデルのスタイルの約55〜70％を保持できますが、サイズははるかに小さく、さまざまなベースモデルと組み合わせて使用することで、お気に入りのモデルを切り替える必要がなくなります（たとえば、永久にベースのポニーまたはautismmixを使用し続けたい場合でも）。

バージョン

現在、2つのバージョンがあります。プロトタイプ（proto）と大量生産（MP）。この命名は、ガンダムのように「プロトタイプモデル」の方がより強力で高性能であるというコンセプトに基づいています。しかし、その分使いにくく、機能に制約が多くなります。具体的な違いは以下の通りです：

chromeshinexl_proto: このバージョンはよりユニークで、ChromeShineXLの強いクオリアをより強く引き継いでいます。肌のトーンやテクスチャの表現方法、キャラクターのフレーミングは、ほとんどの場合、MPよりも優れています。しかし、プロンプトの忠実度が低く、背景が劣り、不潔なデータセットのLoRAを扱うのが非常に苦手です。使用しているLoRAにウォーターマーク、署名、Patreon/Weibo/Twitterのロゴが含まれている場合、それらは必ず生成に取り込まれてしまいます。
chromeshinexl_MP: このバージョンはユニークさは劣りますが、より安定しています。不潔なデータセットのLoRAを扱う能力は（完璧ではありませんが）MPより優れ、プロンプト忠実度も大幅に向上しています。つまり、あなたが実際にプロンプトで指示した内容をより正確に反映します（dynamic_posingタグの効果が特に顕著だと感じました）。ただし、プロンプトが悪ければ（矛盾するタグが多すぎる、タイポや無効なタグが含まれている、実際に必要でない写真・照明用語を大量に組み込んでいるなど）、生成結果はむしろ悪化する可能性があります。また、衣装や背景の整合性もやや優れています。

どのバージョンを使うべきかの私の推奨は、あなたの使用目的次第です。モデルの内在的な知識を信頼して使いたいですか？それとも、多くのキャラクターや衣装LoRAと組み合わせて使いたいですか？頻繁に「自分の方がよく知っている」とふるまう（ときには本当にそうである）面倒なモデルを使いたいですか？それとも、たとえモデルがより良い方法を知っているとしても、あなたの指示を素直に守る従順なモデルを使いたいですか？いつでも、結果が最良の証拠です。例示画像を見て、どのバージョンがあなたのニーズに合うかを確認してください。

プロンプトの書き方

このモデルはタグベースです。自然言語はできるだけ控えめに、主にタグを活用してください。モデルがどのようにタグに反応するかよくわからない場合、アニメスタイルのモデルのトレーニングデータは大抵Danbooruまたはe621から取得されています。両方のウェブサイトにはタグのウィキが豊富にあり、参考になります。

いずれにせよ、AIに対して主観的な用語は使用しないでください。これはよく見られる観察ですが、best quality、high quality、very aesthetic、score_9、score_8、score_7_upなどというタグは、AIが自然に理解する概念ではなく、モデルに訓練された修飾タグです（人間には何百万ものアート作品の品質を個別に判断できないため、通常はユーザーのスコアメトリックに基づいて訓練されます）。AIの金科玉条は、「あなたが与えたものしか知らない」ということです。（そのため、beautiful womanやperfect faceといったタグも、トレーニング中にそのタグが付けられていなければ効果はありません。ソースやオートタグゲナーの性質上、そのようなタグが使われている可能性は非常に低いです。）

ネガティブプロンプトに関しては、あなた次第です。最良の方法は、同じシードで複数回プロンプトを微調整しながら、各ネガティブを慎重に改良することですが、時間に余裕がない場合は、low quality、extra digits、artistic error、watermark、artist name、signatureといったタグが役立ちます。e621_p_lowは、score_6、score_5、score_4よりもトークン数を節約できる、内蔵された汎用的なネガティブ品質タグです。信頼できない場合、完全な品質タグチェーンを使用しても構いませんが、個人的にはこのタグの方が優れた代替案だと思います。プレビュー画像は参考になりますが、もちろんネガティブは自由にカスタマイズしてください。

サンプリングとその他のパラメータ

すべてのディフュージョンモデルと同様に、ネガティブプロンプトの影響はClassifier-Free Guidance Scale（CFG）が高いほど大きくなります。プロンプトはテキストエンコーダーが潜在空間を条件づけるためのものですが、CFGはその強さを調整します。プロンプトが実際に潜在空間をどのように導くかを説明するには多くの言葉が必要ですが、簡単に言えば、unconditional_conditioning（ネガティブ）は潜在空間への特定のベクトルの適用を抑制し、CFGが高いほどその抑制が強くなり（同時に、条件づけ（ポジティブ）も強くなります）。ただし、CFGが過剰に高すぎると、ノイズ除去プロセスへの影響が強すぎて画像が焼けてしまう傾向があります。私の推奨は、CFGを高めずにPerturbed Attention Guidance (PAG)（https://github.com/pamparamm/sd-perturbed-attention）を使用してガイドランスを強化すること、または`Dynamic Thresholding CFG`（https://github.com/mcmonkeyprojects/sd-dynamic-thresholding）を使用して初期ステップでCFGを制限することです。

私が推奨するサンプラーは、お好みのスケジューラと一緒にEuler Aです。私自身はSGMUniformが最も効率的で速いと感じましたが、他のユーザーはAYSサンプラーを好むと報告しています。AYSサンプラーの個人的な体験では、たいていの場合はプロンプトに非常に忠実ですが、モデルが不十分なデータクリーニングにより学習した望ましくないクオリアを強調し、たまにテキストやウォーターマークを注入する傾向があります。よりマニアックなサンプラーを試す意欲があるなら、Euler dy Negative（https://github.com/Koishi-Star/Euler-Smea-Dyn-Sampler）サンプラーは特にクリーンです。主観的にはEuler Aよりも「野心的」ではありませんが、シンプルで明確でクリーンな生成を非常にうまく行います。

25〜35ステップの使用を推奨します。私のデフォルトは28です。正直、この範囲を超えすぎないほうが良いです。非収束サンプラー（確率的サンプラーと祖先サンプラーが該当します）ではステップ数を増やすと画像が劇的に変化します。一方、収束サンプラーでは35ステップ以上にしても収穫は微々たるもので、無駄に計算リソースを消費するだけです。代わりに、ステップ数を増やすのではなく、他のパラメータ（おそらくプロンプト）を調整したほうが良いでしょう。

モデルは832x1216または768x1344で最も優れたパフォーマンスを発揮します。

モデルタイプ	チェックポイント
ベースモデル	Pony
公開日	6/6/2024
トレーニングワード	score_9, score_8_up, score_7_up,

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

バージョン

プロンプトの書き方

サンプリングとその他のパラメータ

このモデルで生成された画像