The Araminta Experiment (SDXL+Flux)

詳細

ファイルをダウンロード

モデル説明

このコミュニティへの私の貢献を気に入ってくれたなら、コーヒーを一杯ご馳走してください:私が飲むカフェインの量が増えれば増えるほど、より多くのモデルを作れるようになります 😅

比較ギャラリーはこちら:Fv6-Fv5 および NSFWイラストの比較:Gv1-Cv6-Fv2

私の実験における現在のSOTAモデル:

  • SDXL ベースモデルGv4 は、リアリストかつスタイル豊かな NSFW および SFW 画像の両方を生成できる最もバランスの取れたモデルです。Fv6 よりも美的な仕上がりですが、写真のようなリアルさはやや劣ります。

  • SDXL 写実的モデル(SFW および NSFW)Fv6 は、写実的な NSFW 画像を含むハイパーリアリズムを追求する際の最適な選択肢です。ただし、Gv4ほどのスタイル表現能力は持ち合わせていません。

  • SDXL イラストレーションGv4(SFW および NSFW)。NSFW 画像に興味がない場合は、Cv6 も試す価値があります。

  • Flux モデルFlux1-A1

SDXL モデルの画像生成設定

DPM++ 2/3M SDE / Karras または Exponential は、25ステップ以上、CFG を 5-7 程度に設定すると常に良い結果になります。ただし、ステップ数を少なく(例:12)、CFG を高く(8-11)設定した DPM++ SDE / Karras や、Euler Ancestral / Normal を用いて、より粗めの仕上がりにするのも試す価値があります。特に Fv6 のようなモデルでは、「ノイジー」な効果を軽減したい場合に有効です。

デフォルトの CLIP Skip は 2 が良い選択ですが、1 や 3-4 を試すのもおすすめです:1 にするとプロンプトへの忠実度が高まり、3-4 にすると「概念」に焦点を当てた結果が、デフォルトより良い場合があります。

Flux モデルの画像生成設定

私の好みの設定は、サンプラー/スケジューラとして DPM++ 2M / beta または sgm_uniform または DDEIS / normal です。beta はより大胆で力強い画像を生成します。より繊細な仕上がりを望む場合は、Euler / simple または beta が良い選択肢です。

CFG は最終的な画像に大きな影響を与え、わずかな変更にも非常に敏感です。

  • 写真の生成には、プラスチックのような肌を避けるために CFG を低めに(1.5-2.5)保つ必要があります。

  • 美術やイラストレーションの生成は、使用するメディアによって異なります。特に「粗い」スタイル(油絵、水彩など)では、CFG を 1.5-2.5 の範囲に保つのが良いですが、アニメやコミックスタイルでは、望ましいスタイルを実現するために CFG をより高く設定する必要があります(3-6 以上)。

画像がゴチャゴチャ、変形、またはぼやけている場合、それはCFGやステップ数がその画像に適していないことが原因ですが、CFGやステップ数を増やすべきか減らすべきかを判断するのは(少なくとも私には)常に簡単ではありません 😊。

Fluxの挙動はSDXLとは大きく異なり、学ぶべき点がたくさんあります。それに合わせて対応する必要があります。

ワークフロー

私のすべての画像には、組み込まれたComfyUIワークフローが埋め込まれていますが、残念ながらCivitAIの処理と互換性がなく、プロンプトを取得できないことがほとんどです。ただし、画像ビューアの「DOWNLOAD」アイコンをクリックすることで、ワークフローが含まれた元のPNG画像をダウンロードできます。

私はできるだけ自分のモデルから直接画像を公開し、たまにローラ(自分製またはディテール強化用)を付加しますが、最近ではより詳細で洗練された構図を得るために、ControlNetを活用することもあります。この場合、元画像はワークフローに含まれていませんが、変種を作成したいときは、私が公開した画像を元に使っていただくのは問題ありません :)

過去

Eシリーズ以降のモデルは、時折他のモデルとマージ(他の貢献者様のおかげです!)されることもありますが、主に独自のデータセットでトレーニングして進化してきました。私のデータセットは小規模(現在約2000枚)ですが、品質と独自性で補っています。

Fv1以降、私は以前のバージョンを使って生成した多数の合成画像を含めるようになりました。プロンプトを激しく変更し、必要に応じてPhotoshopで修正することで、オリジナル画像が豊富なデータセットを構築しています。


このモデルの核となるアイデアは、個人的な好み(写真とファンタジー芸術、簡単に言えば)に合う、既存の最高のモデルをいくつか融合させることで、多目的なツールを作成することです。私の主な目的は:

  1. 写実性人物物体/自然の両方を、圧倒的にリアルに描写できる能力。

  2. 柔軟性:多様なスタイルやアーティストの組み合わせを用いて、非常にスタイル化された画像を生成できる能力。私は年配の世代でヨーロッパ出身のため、「スタイル」とは「日本風かわいい萌えアニメ+胸」や「DCコミックス風のスーパーヒーロー+巨乳の金髪美女」を意味するわけではありません。むしろ、フランク・フリゼッタ、ミロ・マナーラ、ボリス・ヴァレージョ、H.R.ギーガー、ウォイチェフ・シウドマークといったファンタジー芸術の巨匠たちの世界を指します。もちろん胸は登場しますが、スタイルは少し違うのです :P

  3. 人間の身体の探索に制限をかけたくなかったため、比較的優れたNSFW対応モデルを目指しました。しかし、トレーニングデータセットに存在する画像の性質上、NSFWはしばしばポルノ写真や日本のポルノアニメに強く偏り、柔軟性を損ねます(たとえば、プロンプトに「sexy」という単語を入れると、スタイルの重み付けを強くする必要があります)。この点は、ベースモデルの優先事項ではありませんが、NSFWモデルでは強く推進しています。

このモデルで生成された画像

画像が見つかりません。