NovelAI_Diffusion_V2
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
これはNovelAIがリリースしたnovelai_v2モデルで、safetensors形式に変換されています。出力に差異はありません。
SD1.5をベースとしているため、ダウンロード後すぐに推論に使用できます。詳細については、以下をご確認ください。
https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4
このモデルは古く見えるかもしれませんが、そのトレーニング品質は非常に高いです。彼らは常に私たちより先を行っています。タグ認識はv1よりもはるかに優れており、最近の大規模なSDXLファインチューニングにも匹敵します。さらに、U-Netのみでトレーニングされているため、TE汚染のないクリーンなモデルです。
T2Iだけでなく、既存のSD1.5モデルとのマージや、I2Iを通じて他のモデルの詳細やスタイルを強化するのにも役立ちます。
■このモデルはSD1.5をベースとしていますが、ネイティブ解像度は1024pxであり、高解像度生成が可能です。
VAEも改善されており、以前の褪色問題が解消され、色がより鮮やかに再現されています。これだけでも、既存のSD1.5アニメモデルに有益な影響を与える可能性があります。
また、1024x1536pxでの生成も可能ですが、やや安定性に欠けるものの実用的です。1344px付近でより安定する可能性があります。
私のサンプル画像はすべて、Hires fixを使用せずに1024x1536で生成しました。
結果は鮮やかで、極めてシャープです。
目や小さなアクセサリーなどの細部の描画にも優れた能力を持っています。
他のモデルとマージしてみるのも面白いかもしれません。
既存の512pxモデルとマージすれば、640x960などの768pxアスペクト比で画像を生成できる可能性があります。
このモデルを使用する際は、CLIP skip2に設定してください。
■現在、CivitaiのSD1.5による画像生成は512pxまでしか対応していません。1024px対応を要望しましたが、追加されるかは不明です。Civitaiで推論を試したい方々には申し訳ありません。
https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image
ぜひこの要望に賛成票を投じてください。より多くの支持が、その重要性を示すことになります。
■このモデルは多くの概念を理解し、タグプロンプトに良好に反応します。
U-Netのみでトレーニングされているため、クリーンでファインチューニングの理想的な出発点です。
すでに多くの概念を学習しているため、テキストエンコーダーのトレーニングは不要かもしれません。
現在、1536pxではキャラクターの分割が発生することがありますが、1280pxまたは1536pxでLoRAをトレーニングすれば安定性が向上する可能性があります。
■ComfyUIの推論ワークフローを用意しました。参考としてご自由にお使いください。
Tipoとワイルドカードを使用したワークフローが推奨されます。これにより、自分でタグを考案しなくてもさまざまなバリエーションを試せます。
私もこのモデルを完全には理解しておらず、より良い画像生成方法があるかもしれません。
■高解像度推論が遅い場合、HyperLoRAを使用するとステップ数を削減できる可能性があります。 使用方法にはまだ詳しくありませんが、参考のためにワークフローを追加しました。 より良いワークフローや高速化方法があれば教えてください。
https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors
■SDXLで使用されたベース解像度のアスペクト比と同様に使用するのが最適です。やや不安定さを許容するなら、1024x1536も可能です。
1024x1024
896x1152
832x1216
768x1344
640x1536
■まだ初期のテスト段階であり、品質はまだ十分ではありませんが、1024x1536生成を安定化させるためのDoRAを作成しました。 引き続きテストを進め、時間があるときに更新します。
私の見解では、高解像度の利点に加えて、LoRAは過剰露出や過剰彩度を軽減し、画像をよりバランスよくする効果があるため、スタイルLoRAを作成するのは良い選択です。
/model/1253884?modelVersionId=2133885
■品質の安定化を助けるためのネガティブTIを作成しました。ぜひお試しください。
/model/1809022?modelVersionId=2047219
■また、セミリアリスティックスタイルのDoRAも作成しました。
/model/1253884?modelVersionId=2134238
■私の推奨サンプラー:
・euler_ancestral:最も安定しており、崩壊しにくいが、結果は平均的。
・dpmpp_sde:テクスチャと安定性のバランスが非常に良い。他のサンプラーより遅いが、ステップ数は半分で済む。2m/3mより好み。
・2m/3m:他のサンプラーと同じステップ数が必要。低ステップでは崩壊しやすい。
・gradient_estimation:eulerに似ているが収束が速く、低ステップでも安定。
私は「simple」スケジューラを使用するのが好きです。
「GITSスケジューラ」はシャープでスタイリッシュ、鮮やかで、高速かつ収束が速いですが、設定変更に強く反応するため不安定になりやすく、手や解剖学的構造が崩壊しやすい傾向があります。結果が悪化した場合は設定を調整するか、通常のスケジューラに戻してください。
■Uncondzeroを使用することを推奨します。これにより速度がわずかに向上し、autocfg効果によって生成の安定性が向上します。
https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI
■タグの順序
"1boy, 1girl, characters, series, その他の一般タグ..."
ただし、公式説明の多くはv3以降を対象としているため、v2には適用されない可能性があります。 あなた自身にとって意味のある順序を使用するのがおそらく問題ありません。
novelai_v1の方法が時々より効果的で、むしろ正しい可能性もあります。
品質タグの順序はやや不明確ですが、公式V2モデルの例では、品質タグが最初に配置されているようです。v3以降では末尾に追加されます。ただし、私が間違っている可能性もあるので、ご指摘ください。
実際には、タグの順序は強度や主な対象に影響します。
シンプルなプロンプトでは、品質タグを最初に置くことで高品質な結果をより簡単に得られます。
詳細なプロンプトでは、品質、メタデータ、レーティングタグが不要な要素を引き起こす可能性があるため、末尾に配置することで干渉を避けることができる場合があります。
モデルが認識するタグを確認する最も信頼できる方法は、実際のNovelAIウェブサイトで画像を生成する際に表示される推奨タグを確認することです。
■新規ユニークタグリスト(ブログでは他のタグについては言及していませんが、それ以外はnai_v1と同じ可能性があります)
ここでも貴重な情報が得られます。
https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html
■品質タグ
best quality
amazing quality
great quality
normal quality
bad quality
worst quality
■審美タグ
very aesthetic
aesthetic
displeasing
very displeasing
■年タグ
year 2022 など...
Danbooruデータセットの傾向により、2020年以降の画像は一般的に高品質です。特に2022年以降が顕著です。
2018年以前の画像は、プロフェッショナルの作品でない限り品質が不安定です。どの年タグが効果的かを予測する最良の方法は、Danbooruサイトでの画像傾向を確認することです。
このモデルは2023年末のものであるため、それ以降のタグは機能しない可能性があります。2023年のタグは比較的効果的ですが、信頼性は低めです。2022年以前のタグは安全です。
個人的には、2014年のような古いスタイルに年タグを使用すると効果的でした。
近年のタグはあまり恩恵がなく、時折良い雰囲気をもたらすこともありますが、黒白画像やテキストアーチファクトを引き起こすことも多いです。
year 2020 と year 2021 は比較的ましでした。
特定の年スタイルを意図しない限り、年タグを品質指標として使用するのは避けた方が安定します。
■レーティングタグ
rating:general
rating:sensitive
rating:questionable
rating:explicit
NSFW(大文字と小文字の違いは結果に影響しません)
novelai_v2では、「rating:」を追加するのが正しいかどうかは不明です。
「rating:」あり・なし両方でテストしましたが、明確な確認は得られませんでした。
■リネームされたタグ
v は「peace sign」と記述するべきです
double v は「double peace」と記述するべきです
|_| は「bar eyes」と記述するべきです
\||/ は「open \m/」と記述するべきです
:| は「neutral face」と記述するべきです
;| は「neutral face」と記述するべきです
"eyepatch bikini" は「square bikini」と記述するべきです
"tachi-e" は「character image」と記述するべきです




















