Yolkhead's Albums

詳細

ファイルをダウンロード

モデル説明

AIおよびMLの無料リソース:patreon.com/yolkhead

Patreon上のすべてのコンテンツは、素晴らしいメンバーの支援により100%無料です。もし何か役に立ったと感じたら、それらのメンバーが大きな役割を果たしています。



生成されたすべての画像にはメタデータが含まれているはずなので、そのままForgeのイメージインスペクターにドラッグしてください。インペインティングは一切行わず、すべて直接再現可能です。高解像度生成では、私はしばしばhires.fixを使用せず、代わりにCFGを非常に高く設定してネイティブで処理しています。これは誰も気づかないような自慢ですが、私は大いに楽しんでいます。



バージョン:

CRUSH (sdxl)

アルバムをここで保存:https://artists.landr.com/055905712428

generation_guide--------------------

スタイキーネガティブプロンプト手法と組み合わせると最もよく動作します:https://www.patreon.com/posts/sticky-negatives-119624467

CFGを10-20、DPM 2aまたはDPM 3M SDE、UNIFORMスケジューラ、ステップ数15-60(多くの場合15で十分で、時には11まで下げることも可能)から始めることをお勧めします。このモデルにはハイパーモジュールなどの追加要素は一切含まれていません。高CFGでアーティファクトが発生しないことで、正確な埋め込みが実現され、その結果、ステップ数を減らすか、または高解像度で生成することが可能になります。

複数のLoRAを試したことはありませんが、試した範囲では、LoRAの重みは通常の1/10程度に設定する必要があります

/end_generation_guide---------------

このモデルは、これまで使用した中で最も汎用的なものです。単純なマージで、ツリーチャネルを用いて構築され、最終的には各段階で50%/50%の重みを使って8つのモデルをマージしています。

いいえ、私は何が含まれているのかわかりません。それがこのプロセスの一部だったのです。具体的には、どのモデルを組み込むかを決定するために、盲目的な画像テストを行い、自分の先入観が一方に偏らないように、モデル名を変更しました。

このモデルの重みは、私がテストしたモデル群がユーザーに最も好まれているものであり、さらに個々の好みの最適化に基づいて選別されたため、ユーザーの好みの「平均」に非常に近いです。そのため、このモデルの重みは特に強くなく、望む信号強度を得るには高CFGが普通です。

つまり、このモデルの上に学習を行う場合、学習率をはるかに低く設定する必要があります。この件についてはいずれ動画で説明しますが、信頼してください。通常の学習率よりも数桁低い値で、はるかに良い損失曲線が得られます。これは、モデルの重み内の元の信号を相対性を通じて保持するためであり、平均回帰により非常に「繊細」であるためです。ただし、これはまた別の機会にPatreonで説明します。

このモデルにはDPM2a、DPM 3M SDE、またはDDPMを推奨します。特にDPM 2aは高CFGで恩恵を受けます。追加されるノイズは、強力で正確なベクトルがあれば簡単に補正でき、その追加は誤りの修正に役立ち、過学習の回避にも貢献します。

PINK CONCRETE (flux)

アルバムはこちらで聴けます:https://open.spotify.com/album/6mb2KnxcVOIKZBzEiq2Mdg?si=EIlFSDTfSfaFJglMPttk4g

ピンクコンクリートのミュージックビデオ:https://www.instagram.com/reel/DD4Ah0LObCe

zer0intのCLIP-Lのファインチューンを、このモデルやその他のfluxファインチューンと併用することを強くお勧めします。その性能向上は正直素晴らしいものです。

ダウンロードはこちら:https://huggingface.co/zer0int/CLIP-GmP-ViT-L-14/blob/main/ViT-L-14-BEST-smooth-GmP-TE-only-HF-format.safetensors

およびこちら:https://huggingface.co/zer0int/CLIP-GmP-ViT-L-14/blob/main/ViT-L-14-TEXT-detail-improved-hiT-GmP-TE-only-HF.safetensors

これら2つには違いがありますが、どちらが優れているかは明確ではありません。特定のプロンプトで問題が発生した場合、使用するCLIPを切り替えることで問題が解決することもあるため、両方を保持しておく価値があります。

このモデルは、過去にSDXLファインチューンで使用したプロセスを基に構築されましたが、今回はさらに高度化されています。データセットの画像品質を大幅に向上させ、モデルのUNetを意図しない方法で損傷させないためです。一般的に、モデルの品質が高ければ高いほど、トレーニングに使用されるデータセットの品質への配慮がより重要になります。品質の「低下」は、元の構成の特性を主観的に損なう可能性があるからです。

これは全体的な品質向上です。一部のfluxファインチューンのようにNSFWを生成する機能は備えていませんが、正直に言えば、現在のfluxファインチューンのどれもSDXLほどNSFW生成能力に優れていないため、これは無意味な点です。このモデルの主な目的は、ベースのfluxに施されたセーフティトレーニングを解除し、UNetの品質と全体的な忠実度を向上させ、今後のファインチューニングのための出発点とするためでした(予想よりも効果的だったようです)。

このモデルで生成された画像

画像が見つかりません。