SomniumSC

詳細

ファイルをダウンロード

モデル説明

Cascadeにおける最初の高品質なアニメ風モデルが登場しました。SomniumSCの目標は、Stable Cascadeの「妻拡散(waifu diffusion)」になることです。Diffuser版も当方のHuggingFaceで入手できます。

CivitAIには、2つのファイル(それぞれ異なる重みサイズ)が用意されています。1つはStage Cを微調整したモデル、もう1つはテキストエンコーダーを微調整したモデル(zip形式)です。両方をダウンロードし、zipファイルを展開して.safetensorsファイルを取得してください。そうすればComfyUIでモデルを使用できます。使用方法は以下をご覧ください。diffusers 🧨で当モデルを使用したい場合は、HuggingFaceのリポジトリをチェックしてください。使用方法のコードが掲載されています。

否定プロンプトや肯定プロンプト内の「ワードサラダ(意味のない単語の羅列)」、面倒なキャプション作成とはお別れです。SomniumSC v1.1からは、驚異的な画像を生成するために特別なプロンプト調整は不要で、キャプション作成もはるかに簡単になりました。このモデルは、否定プロンプトなしでも良い画像を生成できます。画像に不要な要素(例:エルフの耳、ランダムなハロー)が現れた場合にのみ、否定プロンプトを使用してください。

Ko-Fiで私を支援してください。


SomniumSCは、StabilityAIが新たに開発したモデルであるStable Cascade(またはWürstchen v3)をベースに、2D(カートゥーン風)スタイルでStage C 3.6Bモデルを微調整したものです。このモデルは、2Dスタイルを生成するためにテキストエンコーダーも訓練されており、booruタグプロンプトだけでなく、自然言語でのプロンプト使用も可能です。

このモデルは、AnySomniumXL v2と同じ数と方法で訓練されています。AnySomniumXL v2は、複数のソースから収集した数十万枚の画像の中から、33,000枚以上を厳選しました。データセットは、美学スコアが19以上50以下(カートゥーン風を維持し、リアリスティックすぎないように)で、テキストやウォーターマーク(署名やコミック/漫画画像など)を含まない画像を保存して構築されています。したがって、美学スコアが17未満または50を超える画像、およびウォーターマークやテキストを含む画像はすべて除外されます。

SomniumSCの技術仕様:

  • 1エポックあたりの訓練回数:40エポック(SomniumSCの結果は40エポック使用)

  • 専用マルチモーダルLLMでキャプション作成(LLaVAよりも優れる)

  • バケットサイズ:1024x1024;1536x1536(マルチ解像度)

  • キャプションシャッフル:有効

  • Clip Skip:0

  • NVIDIA A100 80GB 1枚で訓練

このデータセットの構築に使用されるテクノロジーは、CLIPモデルとchristophschuhmannによって開発され、当方で修正されたMLPスコアリング手法を組み合わせたもので、VIT-L/14を用いて-1~100のスケールで美学スコアを生成し、当方が追加したウォーターマーク検出機能を併用しています。

SomniumSC v1.1の実績:

✓ 必要な否定・肯定プロンプトを過剰に使用せずに、自然言語でより多くの2Dモデルを生成可能

✓ adetailerやインペイントなしでも、平均的なStable Diffusionモデルより手や指の品質が優れている

realisticなどの否定プロンプトなしでも、より本物らしい2Dモデルを生成可能

✓ ランダムなウォーターマークやテキストを生成しない

✓ AnySomniumXL v3.5.1よりも優れたテキスト生成能力

✓ 「否定プロンプト」の必要性がなくなりました。画像に不要なオブジェクトがない限り、否定プロンプトは不要です

✓ SomniumSC v1よりも優れた色再現性

✓ キャプション作成がはるかに簡単

Stable CascadeとSDXLベースモデルの違いは、手や指、足、キャラクターの細部、物体の保持方法が優れており、最大1536pxまで生成可能であることです。胆力があれば、2048pxまで生成することも可能です。

制限事項:

✓ より多くのポーズやスタイルのバリエーションをカバーするためには、さらに広範なデータセットの訓練が必要

✓ テキストの最大単語数は2語まで

✓ このモデルは人間または変異した人間の生成に最適化されています。SCP、ポニーなどの非人間的対象を生成すると、期待する結果にならない可能性があります

✓ 顔が圧縮されたように見えることがあります。1536pxで生成するとより明瞭になります

小サイズ版とStable Cascade Lite版は近日リリース予定です

SomniumSCの使い方:

現在、Stable CascadeはComfyUIでのみサポートされていますが、当方のデモもご利用いただけます。

チュートリアルはこちらまたはこちらをご覧ください。

どのモデルをダウンロードすべきかを簡単に説明します:

Stage Aはこちらから

Stage Bはこちらから

Stage CはCivitAIまたは当方のHuggingFaceリポジトリから.safetensorsファイルをダウンロードしてください

テキストエンコーダーは、当方のHuggingFaceリポジトリからダウンロードしてください

SomniumSCのプロのヒント:

キャラクターに尖った耳が生成された場合、「elf」または「pointy ears」と追記してください。

「圧縮された顔」が生成された場合、1536pxの解像度で生成すると、顔がより明確に描かれます。

免責事項:

このモデルは、STABILITY AI NON-COMMERCIAL RESEARCH COMMUNITY LICENSEの下に公開されています。このモデルを販売することはできませんし、派生作品を商業利用することもできません。ただし、StabilityAIの会員登録を購入することで、このモデルを基にした派生作品の商業利用が可能になります。StabilityAIを支援して、彼らが今後もオープンソースモデルを提供し続けてくれるようにご協力ください。ただし、当方のモデルを自由にマージして使用することは可能です。

このモデルで生成された画像

画像が見つかりません。