SDXL Simulacrum ROSE 512 tokens T5-XL

詳細

モデル説明

アルカードと最大512トークンをサポート

うまくいかなかった場合、何が起こるのか?

過集中。おそらく特定のトピックを選んでそれに過集中するだろう。ある時点でバイアスがこれらの要素のいくつかを過剰にデフォルト化してしまい、適切に利用するためにはシステム全体の再重み付けが必要になる。

どう使うのか?

ComfyUIワークフローは、ビジネスウーマンの画像に添付されており、アルカードを意図した通りに動作させるために使われますが、これは最も簡単なプロセスではありません。

さて、今ではすべてを正しく命名しました。間違ったバージョンを取得した場合は、正しいバージョンを入手してください。

プロンプティング

各バージョンは、1280x1280以上のサイズ(約16nnx16nnまで)で活性化するようにトレーニングされており、NSFW要素は明示的にブラックリスト化される必要があります。

アルカードと併用して最大512トークンをサポートし、flan-t5-largeまたはxlは512トークンに設定されます。256トークンの方が若干安定していますが、確実に処理可能です。bert-beatrix-2048と組み合わせることで、512よりさらに最大2048トークンまでのコンテキスト制御が可能ですが、その結果はあまり安定していません。

主にポニー入力向けに品質が最適化されています。以下の要素を使用できます:

  • スコア用:score_9, score_8, score_7, score_6, score_5, score_4, score_3, score_2, score_1
  • 美的評価用:masterpiece, most aesthetic, very aesthetic, displeasing, very displeasing
  • レーティング用:rating_safe, rating_sensitive, rating_explicit, rating_nsfw
  • grid_a1 <- グリッド全体サポート
  • 豊富な要素システムを備えた英語サポート
  • 色、品質、決定論的機能の幅広い対応

動作させる方法

SIMULACRUM ROSE Epsilonは3つのコンポーネントから構成されます:

  1. リファイナー — 画像生成の800〜1000ステップ(つまり80%〜100%)を精緻化するために特化。

    1. 必要なもの:

      1. Simulacrum V4 – Epredエキスパート + CLIP
  2. イアリー — テキストから画像への生成のために、コンテキストを固め、画像を完全に再構築するために特化。

    1. 必要なもの:

      1. Simulacrum V4 – Epredエキスパート + CLIP
  3. フル — 2つのコンポーネントを統合・完全にファインチューニングした状態で、0〜1000ステップ全体をカバー。

    1. 必要なもの:

      • Simulacrum V4 – Epredエキスパート + CLIP
      • Alucard
        • dev2_electric_boogaloo
        • 設定済みのCLIPサンプラー(複数存在するが、設定済みのものを使用)
        • Shivaフォールディング
        • 100ステップ、1パス
          • flan-t5-large
          • bert-beatrix-2048
      • Simulacrum Rose T2I – 1.0強度
      • 上記すべてを組み合わせてフル機能を正しく動作させる必要があります。ラベルが間違っている可能性があるため、出力にスキャンラインや不自然な結果がでた場合は、リファイナーをT2Iと入れ替えてください。

トレーニングプロセス

各モデルは約100エポックで約100万枚の画像を用いてトレーニングされ、問題はすぐに顕在化しました。非常に過剰にトレーニングされてしまったため、公開をためらってきました。

SIMULACRUM ROSE – フルの適切な補間実装を手軽に得る方法は存在しません。この問題はDavidが将来、Simulacrum Rose V2と直接連携して解決するでしょう。

これらはすべて、Alucardと呼ばれる新しいスケジューリング・フォールディング・処理形式を用いてトレーニングされています。これは、標準的なノイズ生成に加えて、条件付けを分離したバケットにグループ化することを目的としたステップ方式です。

このシステムは、現在の補間スペクトルではノイズタイプと収束できなかったため、本質的に失敗しました。その原因の一部は微分方程式が不正確であったこと、もう一部はステップシステムが導入したランダムなドリフトにあります。

これらは非常に過熱してNSFWモデルになってしまいましたが、多くの用途で依然として利用可能であり、非常に強力です。

予想ほど良い結果にはならなかったのは明らかです。

このモデルを長く待たせてしまったことについて、深くお詫び申し上げます。結果はスペクトルと互換性がなく、期待に応えられませんでしたが、それでも出力を共有すべきです。

トークンコンテキストは、予想を超える多数のトークンと整合性を保ちます。これはbert-beatrix-2048とflan-t5-largeを触媒としてトレーニングされており、標準的なCLIPとSimulacrum-Epsilon-V4と併用するときに最適に動作します。

このモデルで生成された画像

画像が見つかりません。