ZootVision - Eta

詳細

ファイルをダウンロード

モデル説明

これは何ですか?

私はこれを以下のように説明します:1024px以上(「バケットリング」のおかげで)でのみ徹底的にカスタムトレーニングされた、異常に汎用的なSD 1.5モデルです。CivitAIの便利なオンラインLoRAトレーナーを用いて、クリーンで加算的かつ反復的に継続的に構築されています。風景画からハードコアなbooruタグベースのNSFWまで、ほぼあらゆるスタイルに対応可能です。特定のアニメ風、リアル風、またはセミリアル風のチェックポイントではなく、必要なときにそのいずれかを選べるモデルです。すべてのショーケース画像は、詳細な補正やアップスケーリングを一切使用せずに直接生成されたものであり(つまり、使用する際は基本的にXLモデルとして扱ってください)、完全なメタデータを含んでいます。

どのように使用しますか?

自然言語でもbooruタグ(アンダースコアではなくスペースを使って)でも使用できます。私は通常、どちらも同時に使用しており、ほぼ一貫した文を構成しつつ、実在する特定のタグを多数組み合わせています。さまざまな例はショーケースギャラリーをご覧ください。解像度に関しては、このモデルで768x768より低い解像度を使用することは、私の意見ではまったく意味がありません(なぜなら、私のトレーニングはすべて1024pxで、ダウンスケーリングや切り抜きを行っていないからです)。

個人的には、このモデルで1024x768または768x1024より低い解像度で生成することはありません。非正方形の画像では、1216x832や832x1216をよく使用します。正方形の画像は、個人的に1024x1024を好みます。このモデルが扱える範囲をよりよく理解するため、ショーケース画像を元の解像度でフルメタデータ付きでダウンロードしてください。さらに、比較的珍しい「エキゾチック」なアスペクト比/解像度にもトレーニングされています。

また、2Dスタイルの画像をプロンプトする場合、このモデルは多くの「by whoever」アーティストタグを認識します(強さには差があります)。気になっているアーティストがいれば、ぜひ試してみてください。

ヒント:リアルさを求めるなら、一般的にSDEサンプラーがこのモデルでより良い結果をもたらします。私は個人的に、CFG 4.0~4.5で「DPM++ 3M SDE GPU Exponential」を大変気に入っています。それほどリアルでないスタイルの場合は、Euler Ancestral(まれにDPM++ 2M Karras)をCFG 7.0前後で試すのも良いでしょう。

「masterpiece」「best quality」「high quality」「worst quality」などのタグはこのモデルで有効ですか?

はい、しかしそれらの影響は、全体的なプロンプトがリアルまたはセミリアルな場合非常に小さいです。特に2Dスタイルの画像に対して顕著な効果があります。ただし、detailed backgroundsimple backgroundは、すべての画像タイプに対して期待通りの影響を及ぼします。

V7.0 Etaの詳細:

リアルさとプロンプトの忠実度は、これまでで最高レベルに向上しました。このバージョンにとても満足しています。VAEは常に組み込まれています。

V6.5 Zeta Plusの詳細:

まだZootvision V7 Etaが目指すレベルには達していませんが、いくつか良い(おそらく控えめな)改善が施されています。今回はショーケース画像で、モデルの実際の深みをもう少し強調しようと試みました。VAEは常に組み込まれています。

V6.0 Zetaの詳細:

基本的にすべてが改善されました。コメントで述べたことすべて、そしてさらにたくさんのことを実行しました。このモデルがどれだけできるかを少し見せるために、ちょっと変なショーケース生成もいくつか作りました、笑。VAEは常に組み込まれています。また、このモデルは「by whoever」形式の膨大なbooruアーティストタグを認識します。これまでに私が言及した特定のタグだけではありません!

V5.0 Epsilonの詳細:

v4.0 Deltaに対して、多様なジャンル(写実主義、NSFW、アニメ)を対象にさらに10,000ステップのトレーニングを実施しました。このバージョンでは、プロンプトにby ideogramを含めることでトリガーできるIdeogramスタイルのデータセットが追加されました。いくつかの例はショーケースギャラリーをご覧ください。Deltaよりもこのバージョンは確実に進化していると感じます。VAEは常に組み込まれています。

V4.0 Deltaの詳細:

2つの追加データセットを統合しました(一つは人物・風景の写真のさらなる改善用、もう一つは「トリッキーなプロンプト」の豊富なキャプション用の実験的データセット)。両方ともV3.0 Gamma上で合計9040ステップのトレーニングを実施。VAEは常に組み込まれています。新しい写真データセットのすべての画像には、photo (medium)タグを付与して、モデルの既存のタグ理解を基盤として強化しました。これはこれまでで最高のバージョンです。ぜひお楽しみください!

V3.0 Gammaの詳細:

1000枚の「美的」データセット(V2.0 Beta上で10,000ステップトレーニング)を統合しました。このデータセットはプロンプトのどこかにvery aestheticと入れることでオプションで強化可能です。VAEは常に組み込まれています。

V2.0 Betaの詳細:

1000枚の「NSFW強化」データセット(V1.0 Alpha上で10,000ステップトレーニング)と統合しました。すべての画像は、少なくとも1辺が1024px以上、最大で1216px(XLスタイルの832x1216ポートレート/1216x832ランドスケープ画像が多数含まれていました)。

V1.0 Alphaの詳細:

風景からハードコアなbooruタグベースのNSFWまで、あらゆるジャンルに対応する高解像度に特化した、完成していないSD 1.5モデルの試みです。

現在の状態でCivitAIにアップロードした主な目的は、さらに必要としているいくつかの1000枚データセットをCivitAIのLoRAトレーナーでトレーニングし、このモデルに統合するためです。気になったら、どんなに未完成でも試して構いません(例:ショーケースに登場するJinxなど、多くのキャラクターを認識しています)。ただし、後のバージョンや最終版とは異なる結果になる可能性があることをご了承ください。

一般(常に関連する)詳細:

このモデルでは、Clip Skip 2が常に「正しい」と盲信しないでください。これは伝統的なNAI由来のモデルではありません。私のテストでは、特定のシードは気に入っているがプロンプトの結果が少し不満な場合、Clip Skip 1か2のどちらかを試すことをお勧めします。どちらも状況によって良い結果を出します。

このモデルで生成された画像

画像が見つかりません。