NatViS: Natural Vision

詳細

ファイルをダウンロード

モデル説明

説明をお読みください

NatViS(Natural Vision)は、SDXLの写実的なフルパラメーターファインチューニングモデルで、自然言語プロンプトを使用して高品質なSFW/NSFW画像を生成します。1年以上にわたって拡張・洗練されたデータセットの100万組以上の画像-キャプション対を用いて学習されています。

v3.0は、知識領域を拡張し、さまざまなプロンプトスタイルにおけるテキスト・画像の整合性を向上させるためにゼロから再構築中です。

現在のv3.0の状況:データ収集中

現在、私は余暇の時間だけこの更新作業に取り組んでおり、公開日は未定です。

フィードバックや提案については、Ko-Fi(下記)で私にメッセージをお送りください。メールと公開Discordはまもなく開設予定です!


コーヒーを一杯どうぞ ❤

https://ko-fi.com/ndimensional

私は電子的な寄付依頼が好きではありませんが、このような規模のSDXLファインチューニングはコストが高騰してきています。なので、ややためらいつつも、私の作業を気に入っていただき、私のモデルを応援してくださる方は、Ko-Fi https://ko-fi.com/ndimensional で寄付を検討してください💗
今後、更新情報の投稿、質問への回答、フィードバックの受付、そして早期アクセス(非独占)モデルの提供を支援者に限定して行う予定です。

すべての寄付は、新しいStable DiffusionファインチューニングとオープンソースAIツールの開発資金に充てられます。


変更履歴

============

11-24-24 NatViS v2.7 Hyper 4Step および 4step Lightning のリンク(🤗)

  • NatViS v2.7の4Step Hyperバージョンをアップロードしました。詳細は「このバージョンについて」をご覧ください。

  • Lightning:v2.7の4Step Lightning バージョンは、現時点ではこちらで入手可能です。8Step Lightning は本日中にアップロード予定です。

  • 注意:時間の都合上、サンプル画像は限られています。

============

11-21-24 NatViS v2.7 Hyper 8step

  • 一貫したCFGでNatViS v2.7の8Step Hyperバージョンをリリースしました。詳細は「このバージョンについて」をご覧ください。

11-18-24 NatViS v2.7

  • 時間の都合上、プレリリース変更履歴は現時点でこちらをご覧ください。

  • 注意:同じサンプル画像を繰り返し生成するのが退屈だったので、新しいプロンプトで少し変化を加えました。以前のバージョンのプロンプトはv2.7でも動作します。時間があれば、旧プロンプトで生成された画像の別専用ギャラリーをアップロードします。

============

10-26-24 NatViS v2.5 Lightning 4step(推奨しません!):

  • NatViS 2.5の4Step Lightningバージョンをアップロードしました。

  • 必要時のみ使用してください

============

10-25-24 NatViS v2.5 Lightning 8step

  • NatViS v2.5の8Step Lightningバージョンをリリースしました。「このバージョンについて」をご覧ください。

    • 注意:以前の8Step Lightningリリースとは異なり、このバージョンはSDXL Lightning LoRAとの単純なマージ版です。低CFGへの要望があったため、このような対応をとりました。

      • Lightningの特性を十分に理解していなかったため、サンプル画像はモデルの実力を十分に反映していない可能性があります。
    • ファインチューニングの微細な特徴をより保持するよう、フルCFGの8Step Lightningバージョンもリリース予定です。

============

10_23_24 NatViS v2.5

新機能は?

  • NatViS v2.5をアップロードしました。

    • v2.0で壊れてしまったタグ/Booruスタイルのプロンプト機能を復元するため、テキストエンコーダーを更新しました。

    • 新(改善済み)データセットから、短くパワフルなキャプションを持つ画像-キャプション対のサブセットを追加しました。

      • 新データセットについて(将来のモデル/更新用):キャプションスタイルの多様性を増やし、すべての自動処理を人間(つまり私)が手動で検証しています。
    • より本物らしいリアリズムを実現するため、アナログ写真とクラシックな映画フィルムの画像データを追加しました。

次に何を予定していますか?

  • 一般:SD3.5のライセンスを検討し、対応する価値があるか確認します。

    • それほどひどいものではありません。ファインチューニング/LoRA用のモデルアーキテクチャの研究を開始します。
  • 一般:Anti-Pony Alphaモデル(アニメ、デジタルイラスト)をリリースします。

    • あらかじめお伝えすると、Ponyほど堅牢ではありません。これは「このアイデアにどの程度関心があるか」を試すためのテストであり、クラウドファンディングによる学習を検討するためのものです。

    • キャラクターの知識と品質を重視し、独自の booru+ タグシステムと自然言語プロンプト、複数のスタイル/媒体、アーティスト知識を組み合わせ、無意味な品質ランクタグは排除し、SDXL互換(つまり オーバーフィットや破損していません)でトレーニングしました。

    • 近日中に詳細を公開します。

  • NatViS:NatViS v2.5のLightningバージョンをリリースします。

    • 前回よりも効果的に実施します。
  • NatViS:ついにPDFガイドの作成・リリースを開始します。

  • NatViS:v3.0のファインチューニングを継続します。

============

10_2_24 NatViS v2.0 Lightning 4step

  • v2.0用の4Step Lightningモデルをアップロードしました。

============

10-1-24 NatViS v2.0 Lightning 8step

  • v2.0用の8Step Lightningモデルをアップロードしました。

============

9-25-24 NatViS v2.0

新機能は?

  • プロンプティング:この更新は主にテキストエンコーダーに焦点を当てています。自然言語プロンプトの能力を改善し、より柔軟なフォーマットをサポートし、特定のトークンへの依存度を減らしました。

  • 人種と民族名:さまざまな人種・民族のフェノタイプの正確性を向上させました。体格だけでなく、衣装、髪型、風景なども含みます。例はこちらをご覧ください。

  • カメラEXIF:プロンプトで指定可能な人気の現代およびアナログカメラのEXIFデータを追加。カメラ名、焦点距離、F値、ISO、シャッタースピード、レンズタイプを含み、NDフィルターや偏光フィルターなどの付属品もサポートします。

  • アナログ:アナログおよびヴィンテージ写真の生成を改善しました。

  • 照明と影:シーン内のオブジェクトや被写体への光(またはその影響)の作用をプロンプトで指定できます。その他の一般的な照明関連修飾子についても追加。詳細は近日公開。

  • 肌の質感:肌の質感の詳細を、肌に関する明示的なトークンを使わずに、または最小限に改善しました。

  • 疑似指示の実装:これはより長い解説が必要です。

  • 男性の解剖学的表現の改善

  • レズビアンの表現追加

次に何を予定していますか?

  • 今後数日中にLightningモデルをリリースします。

  • 完全なPDFガイドとドキュメントを今後1週間以内に公開します。

  • v3.0の情報は今後1か月以内に公開します。

8/4/24 NatViS v1.0 Lightning 4step

  • v1.0の4Step Lightningバージョンをアップロードしました(詳細は「このバージョンについて」をご覧ください)。

============

8/3/24 NatViS v1.0 Lightning 8step

  • v1.0の8Step Lightningバージョンをアップロードしました(詳細は「このバージョンについて」をご覧ください)。

============

8/2/24 NatViS v1.0

  • 初回リリース

使用上のヒント

注意:これらはあくまで推奨事項です。自由に実験してください。

プロンプティング

NatViSは、SDXLのbigGテキストエンコーダーを利用して、自然言語プロンプトを可能にしています。

自然言語プロンプトとは?
Stable Diffusion v1.4のリリース以来、人々は視覚的に記述するタグやフレーズをカンマ区切りで並べる習慣が定着しました。これは初期のStable Diffusionモデルのアーキテクチャとテキストエンコーダーの選択により必要だったものです。SDXLのデュアルテキストエンコーダー/トークナイザーアーキテクチャによって、より自然な記述フォーマットでプロンプトを書けるようになりました。

生成したい画像を、人間に説明するようにそのまま記述してください。

例:
カンマ区切りリスト:a woman, standing, outdoors, sun beams, dappled light, apple tree, wearing denim jeans, flannel shirt, brown hair, long hair, looking at viewer, highest quality, atmospheric, 35mm, masterpiece

自然言語:A masterpiece, 35mm-style photo of a woman with long brown hair, standing outdoors in dappled sunlight beneath an apple tree. She wears denim jeans and a flannel shirt, gazing directly at the viewer with an atmospheric quality.

注意:これは自然言語プロンプトの書き方を示すための例です。より良い例については、サンプル画像をご覧ください。

NatViSは私が話すすべてを理解できますか?
絶対にできません
私は個人で作業しており、アーキテクチャやデータサイズに制限があるため、希望する画像が生成されない場合があります。その際は、異なる言い回し、トークンの配置(プロンプトの先頭または末尾に文またはトークンを移動)、矛盾するトークンの削除など、実験を繰り返してください。すべてのプロンプトに決定的な解決策があるわけではありません。残念ながら、まったく解決できない場合もあります。

タグはまだ使えますか?
短い答え:はい
SDXLのデュアルテキストエンコーダー/トークナイザーアーキテクチャは、両方のエンコーダーでトークン/シーケンスを並列処理できます。つまり、自然言語プロンプトを使う必要はありません。

注意:学習データはすべて自然言語でのキャプションで構成されているため、ユーザーがよく知っている一般的な記述タグすべてがモデルで認識されるわけではありません。特にBooruやBooruスタイルのタグは認識されにくい傾向があります。

多くのサンプル画像で見られるように、ハイブリッドシステムがうまく機能します。

例:
自然言語プロンプトを試したが、結果をさらに映画的(cinematic)にしたい場合、全体のプロンプトを変更する代わりに、プロンプトの末尾に cinematic lighting, harmonious, film still などを追加するだけです。

品質タグ/分類子(score_up_x
神への冒涜です。
ご希望であれば品質ランク/分類子を使用できますが、これらは学習データには含まれていません。

ネガティブプロンプト
他のSDXLモデルと同様に、カンマで区切ったタグを使用し、簡潔に保ってください。必要に応じてネガティブプロンプトのトークンを追加または削除してください。

生成パラメータ

CFG:

  • 推奨:5-7

  • 特定のスタイル/メディアを強調するには7以上

サンプラー/サンプリングステップ:
これは主観的な要素が強いため、直接的な推奨ではなく、私が通常使う設定を紹介します。

  • サンプラー - DPM++ 2M SDE

  • スケジューラ - Karras

  • ステップ - 55

ADetailer:(拡張機能)
リンク
これも主観的ですので、私の設定をそのまま紹介します。

  • モデル - mediapipe_face_full(写実性にはmediapipeをお勧め)

  • 信頼度 - 0.45

  • その他はすべてデフォルト

CFG Rescale:(拡張機能)
リンク
私はこのインストールを忘れていました。ゼロ終端SNRをノイズスケジュールに適用していたかどうかは確実ではありません。パラメータがnullだったので、適用されていないはずです。

  • Phi - 0

重要

同じシードとパラメータを使用してもサンプル画像を再現できない場合は、ノイズスケジューラの影響である可能性があります。WebUIでこの問題の修正を有効にしましたが、その後WebUIを再インストールし、有効化を忘れてしまいました。これはNatViS v1のみに該当します。


学習情報

TODO
この内容の記述には時間がかかります。その間、簡単に概要を:

TLDR; 100万枚以上もの画像を、私が開発中の独自データセットツールキットで処理・クリーニングし、マルチモーダル大言語モデル(MLLM)でキャプション付け(統一特徴空間を利用、GPTではありません)。学習データ、設定、カスタムスクリプトは、最終版リリース時に公開・オープンソース化します。データセットツールキットの公開日は未定です。


他のモデルもチェックしてください

SDXLチェックポイント: https://civitai.com/collections/966964

SDXL LoRAs: https://civitai.com/collections/966969

40Kシリーズ: https://civitai.com/collections/956187

SD1.5チェックポイント: https://civitai.com/collections/966974

SD1.5 LoRAs: https://civitai.com/collections/966972


TensorArt(v1) で実行


🤗Huggingfaceリポジトリ

🤗Huggingfaceリポジトリ - Lightning

🤗Huggingfaceリポジトリ - Hyper

このモデルで生成された画像

画像が見つかりません。