C++AravaggioV0.9 - an Answer to both Dall-E and Kandinsky 2.1

詳細

ファイルをダウンロード

モデル説明

EDIT:否定的なフィードバックを受けたので明確にしておきますが、このモデルは完全なSD 1.5ではありません。そのため、画像生成には異なるアプローチが必要です。ここでリンクしているネガティブ埋め込みは、このモデルでは非常に使いづらいネガティブプロンプトの利用を支援するものです。

このモデルはAutomatic1111でテスト済みです。

画像生成に問題がある場合、特に画質がひどいと感じる場合は、おそらくグラフィックカードの問題です(ランダム数生成器をCPUに設定してください)。

もう一つのコツとして、ENSDを31337ではなく99999に設定するとより良く動作します。自分で試してみてください。

埋め込みを使用しても画像を再現できない場合は、例画像から情報をコピーしてみてください。これで改善するはずです。

/model/93766/embeddings-pack-for-caravaggio-reupload-with-images

このモデルは完璧ではありません。そのことは私も十分に理解しています。これは、まだ公開したくない現在のモデルの第一歩にすぎませんが、それでも十分な力を備えています。

(VAEが組み込まれており、モデルにはいくつかのテキスト逆転が含まれています。解像度は768x768)

このモデルの作成プロセスは、まずいくつかのマージから始まり、その後、私の黒白のドローイングやスケッチでSD 1.5の基本モデルを微調整しました(私はそれほど芸術家ではないですが、そのスタイルがうまく取り込まれ、人間型の出力がアニメや半現実主義モデルとは大きく異なるものになりました)。

その後、私がスケッチで微調整したモデルをさらにマージし、最終モデルをkohyaのextract diffusersツールで分解しました。なぜか? というのも、Stable Diffusionの基本的なテキストエンコーダーよりも優れたものが存在するからです。実際にHuggingfaceからさまざまなエンコーダーを収集し、互換性をテストして最適なものを選びました。現在のモデルは、構造化された英語をよく理解します。ChatGPTに物語を生成してもらい、それをこのモデルで試したり、Midjourneyのプロンプトをそのままコピペしてもうまく機能します。ただし、明らかにMidjourneyではありません。

このモデルで生成された画像

画像が見つかりません。