AnySomniumXL

詳細

ファイルをダウンロード

モデル説明

[誇りを持ってお届けします、AnySomniumXL v3、SDXLモデル]

Ko-Fi でサポートしてください

このSDXLモデルは、2D(アニメ風)スタイルに対応しており、基本的なSDXLモデル(SDXL Base v1.0)を用いて学習されています。テキストエンコーダーの学習をサポートすることで、自然言語を用いて2Dスタイルを生成し、SDXL Baseに内在するリアルなスタイルの生成を抑制しています。

本モデルは、多数のソースから収集した数十万枚の画像の中から、133,000枚以上を厳選して学習しました。データセットは、美的スコアが17以上50以下(アニメ風を維持し、あまりにもリアルにならないようにするため)であり、テキストやウォーターマーク(署名やコミック/マンガ画像など)を含まない画像を保存して構築されています。したがって、美的スコアが17未満または50超過の画像、およびウォーターマークやテキストを含む画像は除外されます。

AnySomniumXL v3 技術仕様:

  • 1エポックあたりの学習回数:16エポック(AnySomniumXLでエポック16を使用した結果)

  • 専用マルチモーダルLLMによってキャプション付与(LLaVAより優れています)

  • バケットサイズ:1280x1280で学習

  • キャプションシャッフル:有効

  • Clip Skip:2

  • NVIDIA A100 80GB × 2台で学習

本データセットの構築には、christophschuhmannが開発したCLIPモデルとMLPスコアリング手法を基に、当方で修正・改良したものを使用しています。VIT-L/14を活用して、-1~100のスケールで美的スコアを算出し、さらに当方が追加したウォーターマーク検出機能を組み合わせています。

実績:

✓ 追加のネガティブまたはポジティブプロンプトを必要とせず、デフォルトでより多くの2Dモデルを自然言語で生成可能

✓ adetailerやインペイントなしでも、平均的なStable Diffusionモデルよりも優れた指の生成が可能

✓ ネガティブプロンプトなしで、より本物の2Dモデルを生成

✓ ランダムなウォーターマークまたはテキストを生成しない

制限事項:

✓ 武器やアイテムを正しく持つキャラクターの描写がやや不自然な場合がある

✓ より広範なデータセットの学習が必要

✓ テキストエンコーダーにまだ一部未補完の部分あり、改善の余地あり

✓ テキストの生成は正しく行えない

✓ 本モデルは人間または変異した人間の生成に最適化されています。SCPやポニーなどの非人間的対象を生成すると、ご期待の結果にならない可能性があります

AnySomniumXL v3 プロのコツ:

AnySomniumXL v3は1280x1280で学習されているため、解像度比率は標準的なSDXLモデルと若干異なる場合があります。

最適解像度(縦向き・横向きに応じて解像度の数値を反転可能です):

  • 1280x1280

  • 1472x1088

  • 1152x1408

  • 1536x1024

  • 1856x832

  • 1024x1600

今後、さらに広範なデータセットと訓練済みテキストエンコーダーを用いたバージョンをリリース予定です。私たちの目標は、学習用に最も大規模でクリーンなデータセットを提供することです。このモデルは、Automatic1111 WebUIでの使用を推奨します。

このモデルで生成された画像

画像が見つかりません。