AnySomniumXL
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
[誇りを持ってお届けします、AnySomniumXL v3、SDXLモデル]
Ko-Fi でサポートしてください
このSDXLモデルは、2D(アニメ風)スタイルに対応しており、基本的なSDXLモデル(SDXL Base v1.0)を用いて学習されています。テキストエンコーダーの学習をサポートすることで、自然言語を用いて2Dスタイルを生成し、SDXL Baseに内在するリアルなスタイルの生成を抑制しています。
本モデルは、多数のソースから収集した数十万枚の画像の中から、133,000枚以上を厳選して学習しました。データセットは、美的スコアが17以上50以下(アニメ風を維持し、あまりにもリアルにならないようにするため)であり、テキストやウォーターマーク(署名やコミック/マンガ画像など)を含まない画像を保存して構築されています。したがって、美的スコアが17未満または50超過の画像、およびウォーターマークやテキストを含む画像は除外されます。
AnySomniumXL v3 技術仕様:
1エポックあたりの学習回数:16エポック(AnySomniumXLでエポック16を使用した結果)
専用マルチモーダルLLMによってキャプション付与(LLaVAより優れています)
バケットサイズ:1280x1280で学習
キャプションシャッフル:有効
Clip Skip:2
NVIDIA A100 80GB × 2台で学習
本データセットの構築には、christophschuhmannが開発したCLIPモデルとMLPスコアリング手法を基に、当方で修正・改良したものを使用しています。VIT-L/14を活用して、-1~100のスケールで美的スコアを算出し、さらに当方が追加したウォーターマーク検出機能を組み合わせています。
実績:
✓ 追加のネガティブまたはポジティブプロンプトを必要とせず、デフォルトでより多くの2Dモデルを自然言語で生成可能
✓ adetailerやインペイントなしでも、平均的なStable Diffusionモデルよりも優れた指の生成が可能
✓ ネガティブプロンプトなしで、より本物の2Dモデルを生成
✓ ランダムなウォーターマークまたはテキストを生成しない
制限事項:
✓ 武器やアイテムを正しく持つキャラクターの描写がやや不自然な場合がある
✓ より広範なデータセットの学習が必要
✓ テキストエンコーダーにまだ一部未補完の部分あり、改善の余地あり
✓ テキストの生成は正しく行えない
✓ 本モデルは人間または変異した人間の生成に最適化されています。SCPやポニーなどの非人間的対象を生成すると、ご期待の結果にならない可能性があります
AnySomniumXL v3 プロのコツ:
AnySomniumXL v3は1280x1280で学習されているため、解像度比率は標準的なSDXLモデルと若干異なる場合があります。
最適解像度(縦向き・横向きに応じて解像度の数値を反転可能です):
1280x1280
1472x1088
1152x1408
1536x1024
1856x832
1024x1600
今後、さらに広範なデータセットと訓練済みテキストエンコーダーを用いたバージョンをリリース予定です。私たちの目標は、学習用に最も大規模でクリーンなデータセットを提供することです。このモデルは、Automatic1111 WebUIでの使用を推奨します。






