AnySomniumXL

[誇りを持ってお届けします、AnySomniumXL v3、SDXLモデル]

Ko-Fi でサポートしてください

このSDXLモデルは、2D（アニメ風）スタイルに対応しており、基本的なSDXLモデル（SDXL Base v1.0）を用いて学習されています。テキストエンコーダーの学習をサポートすることで、自然言語を用いて2Dスタイルを生成し、SDXL Baseに内在するリアルなスタイルの生成を抑制しています。

本モデルは、多数のソースから収集した数十万枚の画像の中から、133,000枚以上を厳選して学習しました。データセットは、美的スコアが17以上50以下（アニメ風を維持し、あまりにもリアルにならないようにするため）であり、テキストやウォーターマーク（署名やコミック/マンガ画像など）を含まない画像を保存して構築されています。したがって、美的スコアが17未満または50超過の画像、およびウォーターマークやテキストを含む画像は除外されます。

AnySomniumXL v3 技術仕様：

1エポックあたりの学習回数：16エポック（AnySomniumXLでエポック16を使用した結果）
専用マルチモーダルLLMによってキャプション付与（LLaVAより優れています）
バケットサイズ：1280x1280で学習
キャプションシャッフル：有効
Clip Skip：2
NVIDIA A100 80GB × 2台で学習

本データセットの構築には、christophschuhmannが開発したCLIPモデルとMLPスコアリング手法を基に、当方で修正・改良したものを使用しています。VIT-L/14を活用して、-1～100のスケールで美的スコアを算出し、さらに当方が追加したウォーターマーク検出機能を組み合わせています。

実績：

✓ 追加のネガティブまたはポジティブプロンプトを必要とせず、デフォルトでより多くの2Dモデルを自然言語で生成可能

✓ adetailerやインペイントなしでも、平均的なStable Diffusionモデルよりも優れた指の生成が可能

✓ ネガティブプロンプトなしで、より本物の2Dモデルを生成

✓ ランダムなウォーターマークまたはテキストを生成しない

制限事項：

✓ 武器やアイテムを正しく持つキャラクターの描写がやや不自然な場合がある

✓ より広範なデータセットの学習が必要

✓ テキストエンコーダーにまだ一部未補完の部分あり、改善の余地あり

✓ テキストの生成は正しく行えない

✓ 本モデルは人間または変異した人間の生成に最適化されています。SCPやポニーなどの非人間的対象を生成すると、ご期待の結果にならない可能性があります

AnySomniumXL v3 プロのコツ：

AnySomniumXL v3は1280x1280で学習されているため、解像度比率は標準的なSDXLモデルと若干異なる場合があります。

最適解像度（縦向き・横向きに応じて解像度の数値を反転可能です）：

1280x1280
1472x1088
1152x1408
1536x1024
1856x832
1024x1600

今後、さらに広範なデータセットと訓練済みテキストエンコーダーを用いたバージョンをリリース予定です。私たちの目標は、学習用に最も大規模でクリーンなデータセットを提供することです。このモデルは、Automatic1111 WebUIでの使用を推奨します。

モデルタイプ	チェックポイント
ベースモデル	SDXL 1.0
公開日	2/6/2024

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

このモデルで生成された画像