FluffyRock

詳細

ファイルをダウンロード

モデル説明

FluffyRockのFluxベースの後継モデルは現在訓練中です。早期のチェックポイントは、検閲なしの完全な自然言語モデルの分野で非常に有望な結果を示しています。

Chroma

[ e233-terminal-snr-vpred-e206 はオリジナルのvpred訓練ラインの最終版です。「完全性」のためにここに置きました。このvpredモデルには、いくつかの新しいチェックポイントがあり、訓練にいくつか異なる変更が加えられています(何が変更されたかは忘れてしまいました)。Civitaiと企業が協力してくれれば、後で e257-terminal-snr-vpred-e11 をアップロードしようと思います。 ]

[ より新しいFRモデル、特に「minsnr」ラインがありますが、これらはやや「deepfried」化されており、一般的な使用にはお勧めしません。Lodestoneは、それらをマージに使うことを推奨しています。いつものように、これらすべてはHFリポジトリにありますので、試したい方はどうぞ。 ]

これは、一般的で人気のある新しいFluffyRockモデルの、Civitaiへの公式に近いアップロードです。主な目的は、他の投稿やモデルが元のモデルを正しく参照できるようにすることです。

FluffyRockは、ファジーを焦点に置いたモデルで、概念とスタイルについて非常に広範な理解を持ち、最大1088x1088までサンプリングできます。多くの異なる実験が並行して行われているため、複数のモデルブランチが同時に訓練されています。各ブランチは、他のブランチと少なくとも少し異なる出力を生成します。

複数の異なる方法を使用したモデルブランチがあります。

各ブランチとその違いを示すチャートは、更新次第追加されます。

ここに記載されている情報は不完全です。将来的に改善されます。

現在推奨されるバージョン:

個人的には、vpredモデルラインが非常に良くなってきています。動作させるには追加のセットアップが必要です。以下をご覧ください。

terminal-snrの最近のエポックは、すでに十分に成熟しており、各チェックポイント間の変化は、低頻度タグの概念理解が段階的に向上している程度です。

これはしばしば主観的な好みの問題です。お好みのものを選んでください。または他のモデルと組み合わせても構いません。好きなようにお使いください。:V

プロンプトの使い方:

アンダースコアなしのe621タグを使用し、コンマ区切りで、順序は問いません。

アーティストタグは、通常ある「(artist)」の部分を除いて「by name」形式で使用してください。

3m以前のモデルはメタタグを理解できません。3m以降のモデルはメタタグを理解する可能性がありますが、私はまだ明示的にテストしていません。

ベースのSD1.5の自然言語理解はほぼロボトミー化されています。現在、SDのベースと同様だが、ファジー芸術に特化した自然言語理解を再構築する複数のプロジェクトが進行中です。これらのチェックポイントはまだ一般使用には不十分ですが、DiscordスレッドやHFで試すことができます。

ここで示されているほとんどの例は、否定プロンプトを最小限または全く使用していません。

FluffyRockのvpredモデルを使用するには、追加のセットアップが必要です:

提供された設定ファイルを使用してください。

CFGリスケールを使用する必要があります。

A1111(およびおそらくVladフォーク)の場合、CFG_Rescale_webui拡張機能を使用してください。またはA1111からCFGリスケールのPRを取得してください(既にアップストリームにマージされている可能性があります)。将来的には、これがA1111の標準機能になることを期待しています。

Comfy UIでこれを実行する方法がありますが、確認してこちらに情報を追加する必要があります。

Civitaiへのアップロードについて:

時間とともに、より多くのバージョンが追加されます。特定のチェックポイントをここでアップロードしてほしい場合は、コメントを残してください。新しいモデルは、アップロードとサンプル画像作成の時間を確保次第、ここでアップロードされます。元のHugging Faceリポジトリが常に最新バージョンです。

これらのモデルをここでアップロードしているのは、私たちの小さなカジュアルチームの中で、私が最も余裕のある帯域幅と時間を確保できていたからです。Lodestone Rockがこれらのモデルを訓練しました。他にも多くの人がさまざまな面で協力してくれました。

Civitaiの制限(バージョン文字列の長さが非常に短い)と、サイトの仕様(ダウンロードは元のアップロードファイル名を使用しない)のため、チェックポイントのファイル名はHuggingFaceのオリジナルと異なります。私は、異なる訓練ブランチ間で一意性を保ちつつ、元のファイル名にできるだけ近い形で命名するよう努めました。各チェックポイントの完全なオリジナルファイル名は、サイドパネルの「このモデルについて」に記載されています。

ここでの各モデルラインの簡単な概要。

1088-megares:最大1088pxの高解像度データセットで訓練。

e27で収束したため、他のラインへの移行が行われ、終了とされました。

1088-megares-offset-noise:上記と同じですが、オフセットノイズを追加したエポックがさらに追加されています。画像の明暗部分の動的照明レンジを拡張するのに役立ちます(より暗い暗部を可能にします)。

e27で収束したため、他のラインへの移行が行われ、終了とされました。

1088-megares-offset-noise-3M:上記と同じですが、より大きな300万枚以上の画像データセットを使用。より多くの概念を理解できます。

他のラインに時間を割くため、追加のチェックポイントの訓練は行われていないと推測されます。

1088-megares-terminal-snr:オフセットノイズと同様の目標ですが、技術的には異なる手法。ノイズスケジュールを再スケーリングして、終端SNRをゼロに強制します。これは以下のvpredフォークで行われた追加の変更と統合されます。

1088-megares-terminal-snr-vpred:エポック20-21で1088-megares-terminal-snrからフォーク。

これは、Stable Diffusion 1.5の劣悪なノイズスケジューリングとサンプリングステップを修正するためにv-predictionを用いた実験モデルです。この修正は4つの異なる方法で行われます。

  • ノイズスケジュールを再スケーリングして、終端SNRをゼロに強制する。
  • v-predictionでモデルを訓練する。
  • サンプラーを常に最終タイムステップから開始するように変更する。
  • クラスフリー・ガイドanceをリスケールして過剰露出を防ぐ(CFGリスケール)。

これらの変更は、論文「Common Diffusion Noise Schedules and Sample Steps are Flawed」に基づいています。

このモデルの実験により、以下のような多様な改善が見られています(例に限定されません)。

  • プロンプト理解の向上
  • より正確な色再現
  • 明顯に強化されたコントラスト

FluffyRockのvpredモデルを使用するには、追加のセットアップが必要です:

設定ファイルとCFGリスケールが必要です。A1111(およびおそらくVladフォーク)の場合は、CFG_Rescale_webui拡張機能を使用するか、A1111からCFGリスケールPRを取得してください(すでにアップストリームにマージされている可能性があります)。

e6laion:別の実験。

他のラインのフォークではなく、独立しています。

e6、laion、booruのデータセットで訓練。ベースのSD1.5が失っていたものを再学習しています。またvpredも使用しています。非常に実験的で、まだエポックが少ないです。このサイトにはまだアップロードされていません。HuggingFaceリポジトリからダウンロードできます。結果は不安定な場合があります。

PolyFur:より新しいプロジェクト。e6laionと類似していますが、追加のデータセットは人間が手動でキュレーションしたもので、自然言語プロンプトの再導入を目指しつつ、より良い美的表現に焦点を当てています。

他のラインのフォークではなく、独立しています。

各エポックで改善が見られ、8月上旬にこちらにリリースされる可能性があります。これもvpredを使用しています。現在、HuggingFaceリポジトリからダウンロード可能です。

SDXLVAE:1088-megares-offset-noise-3Mの実験的フォークで、SDXL VAEを使用しています。

オートコンプリート:

タグオートコンプリートファイル - 現在はpre-3Mデータセットのみ対応しています。新しいファイルを作成中ですが、35,000件の対立タグを手動で確認・修正する必要があります。

2つのエポック番号?

最初の数字は訓練開始からの連続エポック数。

2番目の数字は、その特定のラインがフォークされてからのエポック数。

例:fluffyrock-576-704-832-960-1088-lion-low-lr-e101-terminal-snr-vpred-e74

1088マルチリゾリューション訓練開始からの101番目のチェックポイント。これが合計エポック数。

terminal-snrがフォークされてからの74番目のチェックポイント。つまり、tsnrで実行されたエポック数。(vpredはおそらくe20-e21でフォークされています。)

トラブルシューティング:

出力が良くない:

512x512でサンプリングしないでください。768以上を使用してください。1088を超えると、典型的なSD1.xの高解像度異常が発生する可能性があります。High-res-fixなど類似の方法は、2K以上の解像度を簡単に達成するのに有効です。

いくつかのアートスタイルをプロンプトに含めてください。"by [e6アーティストタグ(アンダースコアなし)]"を使用してください。より良い結果を得るために、複数のスタイルをプロンプトに組み合わせてください。A1111のプロンプト編集機能を使うと、独自のスタイルを作成するのが非常にうまくいきます。

一部のタグの概念は、モデルが認識していますが、サンプル数が少なすぎたり、多すぎたりして強いバイアスがかかっています。その概念用にカスタムLoRAを訓練するのが、概念を好みに合わせるための良い方法です。

vpredのトラブルシューティング:

出力がノイズ・雲だけ: 設定ファイルが不足しています。

出力が暗すぎる: CFGリスケールを上げてください。通常、0.7〜0.9が最適です。

一部のサンプラーは、CFGリスケール対応がまだ完全ではないため、動作しない場合があります。最新の議論についてはDiscordスレッドをご覧ください。

LoRAの訓練:

以前は、e27が他のFRモデルブランチに移植しやすいという理由で推奨されていましたが、これは古くなりました。

私の経験では、最近のFRラインで訓練されたLoRAは、他のモデルライン間で十分な移植性を示しています。ただし、サンプリングに使用するモデルに対してLoRAを訓練するのが最も良い結果を得られる可能性が高いです。

ノイズオフセットモデルは、良い結果を得るためにノイズオフセット>0で訓練が必要な場合がありますが、これらのLoRAはノイズオフセットを使用しない他のモデルではうまく動作しない可能性があります。0から始め、結果を確認してください。オフセットノイズモデルはすでに古くなっているため、新しいラインを検討することをお勧めします。

Terminal-SNR(non-vpred)モデルは特別な設定は必要ありません。

vpredはv_parameterizationを有効にして訓練する必要があります。kohya_ssはv1でそれを使用すると警告しますが、無視してください。誰もSD1.5をv-predictionで訓練するとは想定していませんでした。

non-vpredのFRモデルで訓練されたLoRAは、おそらく動作します。

Discordで助けを求めてください。

リンクとリソース:

タグオートコンプリートファイル

Hugging Faceリポジトリ すべてのモデルラインのすべてのバージョンが含まれています。このリポジトリを完全にgit cloneするには1.5TB以上のディスク容量が必要です。ご注意ください。

FluffyRock Discordサーバー

Furry Diffusion Discordサーバー および ここでのFRスレッド

LodestoneRockのPatreon 訓練の費用を支援してください。

ライセンス:WTFPL

wtfpl-badge-1

Civitaiのサイト内生成が(少なくともこれらのモデルでは)機能していないため、面倒な「作成」ボタンを無効にするために、商用利用の設定を誤って設定しています。生成サービスでモデルを使用しても構いませんが、実際に動作するようになると嬉しいです。:V

どうやら現在はvpredモデルを除いて、動作しているようです。

このモデルで生成された画像

画像が見つかりません。