NovelAI_Diffusion_V2
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
これはNovelAIがリリースしたnovelai_v2モデルをsafetensors形式に変換したものです。出力に差異はありません。
SD1.5をベースとしているため、ダウンロード後すぐに推論に使用できます。詳細については、以下をご確認ください。
https://blog.novelai.net/novelai-diffusion-v2-weights-release-b9d5fef5b9a4
このモデルは古く見えるかもしれませんが、トレーニング品質は非常に高いです。常に私たちより先を行っています。タグ認識はv1よりもはるかに優れており、最近の大規模SDXLファインチューニングと互角です。さらに、U-Netのみでトレーニングされているため、TE汚染のないクリーンなモデルです。
T2Iだけでなく、既存のSD1.5モデルとのマージや、I2Iを通じて他のモデルの詳細やスタイルを強化するのにも役立ちます。
■このモデルはSD1.5をベースとしていますが、ネイティブ解像度は1024pxであり、高解像度生成が可能です。
VAEも改善されており、以前の褪色問題が解消され、色彩がより鮮やかになっています。これだけで、既存のSD1.5アニメモデルにも恩恵があるでしょう。
また、1024x1536pxでの生成も可能ですが、やや安定性が低くなります。それでも実用的です。1344px付近でより安定する可能性があります。
私のサンプル画像はすべてHires.fixを使用せずに1024x1536で生成しました。
結果は鮮やかで、非常にシャープです。
目や小さなアクセサリーのような繊細なディテールの描写能力も優れています。
他のモデルとマージしてみるのも面白いでしょう。
既存の512pxモデルとマージすれば、640x960などの768pxアスペクト比で画像生成が可能になります。
このモデルを使用する際は、CLIP skip2に設定してください。
■現在、CivitaiのSD1.5による画像生成は512pxまでしかサポートされていません。1024pxのサポートを要望しましたが、追加されるかどうかは不明です。Civitaiで推論をご希望の方には申し訳ありません。
https://feedback.civitai.com/p/please-consider-adding-768px-and-1024px-resolution-options-for-image
ぜひこの要望に賛成票を投じてください。多くのサポートがあれば、その重要性が伝わるでしょう。
■このモデルは多くの概念を理解しており、タグプロンプトに良好に反応します。
U-Netのみでトレーニングされているため、クリーンでファインチューニングの優れた出発点です。
すでに多くの概念を学習しているため、テキストエンコーダーのトレーニングは必要ないかもしれません。
現在、1536pxではキャラクターが分割する可能性がありますが、1280pxまたは1536pxでLoRAをトレーニングすることで安定性が向上するでしょう。
■ComfyUIの推論ワークフローを用意しました。参照としてご自由にお使いください。
Tipoとワイルドカードを使用したワークフローを推奨します。これにより、自分でタグを考える必要なく、さまざまなバリエーションを試せます。
私もまだこのモデルを完全には理解しておらず、より良い画像生成方法があるはずです。
■高解像度推論が遅い場合、HyperLoRAでステップ数を削減できる可能性があります。 使用方法には詳しくありませんが、参考用にワークフローを追加しました。 より優れたワークフローや速度向上方法があれば教えてください。
https://huggingface.co/ByteDance/Hyper-SD/blob/main/Hyper-SD15-8steps-CFG-lora.safetensors
■SDXLで使用されるベース解像度のアスペクト比と同じものを使用するのが最適です。若干の不安定さを許容するなら、1024x1536も可能です。
1024x1024
896x1152
832x1216
768x1344
640x1536
■まだ初期テスト段階であり、品質はまだ十分ではありませんが、1024x1536の生成を安定化させるためのDoRAを作成しました。
引き続きテストを進め、時間が取れ次第更新します。
私の見解では、高解像度の利点に加えて、LoRAは過剰露出や過剰彩度を軽減し、画像をよりバランスよくする効果があるため、スタイルLoRAを作成するのは良い選択です。
/model/1253884?modelVersionId=2133885
■品質の安定化を助けるためのネガティブTIを作成しました。お試しください。
/model/1809022?modelVersionId=2047219
■また、セミリアリスティックスタイルのDoRAも作成しました。
/model/1253884?modelVersionId=2134238
■推奨サンプラー:
・euler_ancestral:最も安定しており、崩壊しにくいですが、結果は平均的です。
・dpmpp_sde:テクスチャと安定性のバランスが優れています。他のサンプラーより遅いですが、ステップ数は半分で済みます。2m/3mよりも好みです。
・2m/3m:他のサンプラーと同じステップ数が必要です。ステップ数が少ない場合、崩壊しやすいです。
・gradient_estimation:eulerに似ていますが、収束が速く、低ステップでも安定性が高いです。
私は「simple」スケジューラーを使用するのが好きです。
「GITSスケジューラー」はシャープでスタイリッシュ、鮮やかで、高速かつ収束が速いですが、設定変更に対して非常に敏感です。不安定な設定では問題が発生しやすいです。手や解剖学的構造が崩れやすいです。結果が劣化した場合は、設定を調整するか、通常のスケジューラーに戻してください。
■Uncondzeroを推奨します。これにより速度がわずかに向上し、autocfg効果で生成の安定性が高まります。
https://github.com/Extraltodeus/Uncond-Zero-for-ComfyUI
■タグの順序
"1boy, 1girl, characters, series, その他の一般タグ..."
ただし、公式の説明の多くはv3以降のものであるため、v2には適用されない可能性があります。自分にとって意味のある順序で問題ないでしょう。
novelai_v1の方法の方が、場合によってはより効果的で、むしろ正しい可能性もあります。
品質タグの順序はまだ明確ではありませんが、公式V2モデルの例では品質タグが最初に配置されているようです。v3以降では末尾に追加されます。ただし、私の理解が間違っているかもしれません。
実際には、タグの順序は強度や主な対象に影響します。
シンプルなプロンプトでは、品質タグを最初に置くことで高品質な結果を得やすくなります。
詳細なプロンプトでは、品質、メタデータ、レーティングタグが不要な要素を導入する可能性があるため、末尾に置くことで干渉を回避できる場合があります。
モデルがどのタグを認識するかを確認したい場合、最も信頼できる方法は、NovelAI公式サイトで画像を生成する際に表示される推奨タグを参照することです。
■新しい独自タグリスト(ブログには他のタグについて言及されていませんが、それ以外はnai_v1と同じ可能性があります)。
ここでも貴重な情報が得られます。
https://docs.novelai.net/image/tags.html
https://docs.novelai.net/image/qualitytags.html
■品質タグ
best quality
amazing quality
great quality
normal quality
bad quality
worst quality
■審美タグ
very aesthetic
aesthetic
displeasing
very displeasing
■年份タグ
year 2022 など...
Danbooruデータセットの傾向により、2020年以降の画像は一般的に高品質です。特に2022年以降。
2018年以前の画像は、プロフェッショナルのものでない限り混在しています。どの年份タグが効果的かを予測する最も良い方法は、Danbooruサイトの画像傾向を確認することです。
このモデルは2023年末のものであるため、それ以降のタグは機能しない可能性があります。2023年のタグは比較的機能しますが、信頼性は低めです。2022年以前のタグは安全です。
個人的には、2014年のような旧スタイルの画像に年份タグを用いるのが効果的だと感じました。
近年のタグは大きなメリットをもたらさず、時折良い雰囲気を加える一方で、白黒画像やテキストアーチファクトを引き起こすこともありました。
year 2020 と year 2021 は比較的ましでした。
特定の年份のスタイルを意図しない限り、年份タグを品質指標として使用するのは避けた方が安定しています。
■レーティングタグ
rating:general
rating:sensitive
rating:questionable
rating:explicit
NSFW(大文字と小文字の違いは結果に影響しません)
novelai_v2において、「rating:」を付けるのが正しいかどうかは不明です。
付ける場合と付けない場合の両方をテストしましたが、決定的な確認はできませんでした。
■リネームされたタグ
v は代わりに peace sign と記述するべきです
double v は代わりに double peace と記述するべきです
|_| は代わりに bar eyes と記述するべきです
\||/ は代わりに open \m/ と記述するべきです
:| は代わりに neutral face と記述するべきです
;| は代わりに neutral face と記述するべきです
eyepatch bikini は代わりに square bikini と記述するべきです
tachi-e は代わりに character image と記述するべきです




















