AccretionDiscXL

詳細

ファイルをダウンロード

モデル説明

吸着円盤 /əˈkrēSHən disk/

  1. (名詞)重力の影響下で、ブラックホールなどの巨大天体の周囲に物質が吸い寄せられて形成される回転する円盤状の物質。

はじめに

これは少し変わったモデルです。正直、MIX-GEM-QromEW(推奨モデルタブでMyMix-J/GEMをご覧ください、またはYodayoまたはTensor.artで閲覧中なら私のプロフィールページをご覧ください)の方が構図のセンスが優れており、より深い黒と色のコントラストをよく表現しています。しかし、このモデルは絵画的なスタイルをよりよく再現し、プロポーションの面でもやや優れているため、独自の長所を持っています。私の不満は、単に基準を高しすぎているだけかもしれません。誰が分かりますか?

いずれにせよ、このモデルは2つの異なるモデルを50/50で混合して作成されました。一つはMIX-GEM-lyQrom(本質的にはQromEWの少し修正版)であり、もう一つは作業名がls-chromeshine-dino8loraquasar8lycomerge-doubledのモデルです。後でlyQromモデルをアップロードする可能性がありますが、これは使えるためです。一方、ls-chromeshine-dino8loraquasar8lycomerge-doubledは扱いにくいです。前者はLS Equos V1の上に単純なLoRA+LyCORISをマージしたもので、後者は訓練済みLS Equosの上にLoRA + LyCORISをマージしたものです。ls-chromeshine-dino8loraquasar8lycomerge-doubledの一部の出力は確かに優れていましたが、全体的に不安定すぎたため、lyQromとマージしました。これにより、高品質と低品質の平均化が実現され、モデルとしての実用性が大幅に向上しました。以下に示す画像は、ls-chromeshine-dino8loraquasar8lycomerge-doubledが最も優れていたときの選りすぐりの出力であり、lyQromとのマージがどのような効果をもたらしたかを示しています。この表示に先立ち、これは平均的な結果を表すものではないことを明確にしておきます。そうでなければ、私は単にls-chromeshine-dino8loraquasar8lycomerge-doubledをアップロードしていたでしょう。

ご覧の通り、マージによってls-chromeshine-dino8loraquasar8lycomerge-doubledのスタイル効果がより安定したlyQromにうまく引き継がれました。また、ls-chromeshine-dino8loraquasar8lycomerge-doubledが抱えていた他の欠点、たとえばセピア調が強すぎたり、髪の毛が(言い方が適切でないが)「とげとげしすぎ」たりする点は、マージによって改善されました。ただし、スタイルの保持はやや不安定です。もし今後このモデルを再検討するなら、目標はls-chromeshine-dino8loraquasar8lycomerge-doubledの独特な質感をさらに多く保持しつつ、QromEWの構図的な強みを取り入れることです。そのためには、ブロックマージの手法が有望かもしれません。

プロンプトの使い方

これはタグベースのモデルであり、自然言語は可能であれば二次的に、主にタグを活用してください。このモデルがどのタグに反応するかに慣れていない場合、アニメスタイルモデルのトレーニングデータは大抵Danbooruまたはe621から取得されています。両方のウェブサイトにはタグウィキが豊富に用意されており、リファレンスとして役立ちます。

いずれにせよ、AIに関して主観的な用語は使用しないでください。これは私がよく見受けられる観察ですが、best quality, high quality, very aesthetic、あるいはscore_9, score_8, score_7_upなどのタグは、AIが自然に理解する概念ではなく、モデルに学習された修飾タグです(通常、何百万点ものアート作品の品質を個別に評価するのは人間には不可能なので、ユーザーのスコアメトリクスに基づいて学習されます)。AIの黄金律は、「あなたが与えたものしか知らない」ということです。(これにより、beautiful womanperfect faceなどのタグも、トレーニング中にタグ付けされていなければ効果がありません。ソースやオートタガーの性質上、そうしたタグは非常にまれです。)

ネガティブタグについては、ご自由にお選びください。最良の方法は、同じシードに対して複数回のプロンプト修正を重ねながら、一つずつネガティブタグを調整することですが、時間が限られている場合は、low quality, extra digits, artistic error, watermark, artist name, signatureなどのタグが役立ちます。e621_p_lowは、score_6, score_5, score_4よりもトークン消費が少ない、組み込みの汎用的なネガティブ品質タグです。信頼できない場合は、代わりに完全な品質タグチェーンを使うこともできますが、個人的にはこのタグの方が優れた代替です。プレビュー画像は参考になりますが、もちろんネガティブタグはご自身で自由にカスタマイズしてください。

サンプリングとその他のパラメータ

すべてのディフュージョンモデルと同様に、ネガティブタグの効果はClassifier-Free Guidance Scale(CFG)が高くなるほど強まります。プロンプトはテキストエンコーダーが潜在空間に条件を付与するものですが、CFGはその強度を調整します。プロンプトが実際に潜在空間をどう導くかを説明するには多くの言葉が必要ですが、簡単に言えば、unconditional_conditioning(ネガティブ)は潜在空間に特定のベクトルの適用を抑制し、CFGが高くなるほどその抑制が強まります(同時に、条件付け(ポジティブ)も強くなります)。ただし、CFGの値が過度に高すぎると、ノイズ除去プロセスに過剰な影響を与えて画像が「焼けてしまう」傾向があります。私の推奨は、CFGを上げずにガイダンスの強度を高めるためにPerturbed Attention Guidance (PAG)を使用するか、あるいはDynamic Thresholding CFGを使って初期ステップ段階でCFGを制限することです。

私の推奨サンプラはEuler Aで、お好みのスケジューラを使用してください。私自身はSGMUniformが最も効果的かつ高速だと感じましたが、他のユーザーはAYSサンプラを好むと報告しています。AYSサンプラについての私の経験では、ほとんどの場合プロンプトへの忠実度が高い一方で、モデルが学習した(主にトレーニングデータのクリーニング不足により)望ましくない性質を強調し、たまにテキストやウォーターマークを注入してしまうことがあります。より変わったサンプラを試す意欲があるなら、Euler dy Negativeサンプラは特にクリーンだと感じました。主観的にはEuler Aより「野心的」ではありませんが、シンプルで明確でクリアな生成物を作成するのに非常に優れています。

25〜35ステップの実行をおすすめします。私のデフォルトは28です。正直、この範囲を超えてステップ数を増やすべきではありません。収束しないサンプラ(確率的サンプラと祖先サンプラが代表的です)では、ステップ数を増やすと画像が劇的に変化します。一方、収束するサンプラでは、ステップ数が35を超えた時点で得られるメリットはほぼゼロです。無駄に計算リソースを消費するだけです。代わりに、ステップ数を増やすのではなく、他のパラメータ(おそらくプロンプト)を調整することをおすすめします。

モデルは832x1216または768x1344の解像度で最も良好な結果を出します。

このモデルで生成された画像

画像が見つかりません。