NoobAI-Flux2VAE-RectifiedFlow
詳細
ファイルをダウンロード
モデル説明
NoobAI-RF モデルの Flux2 VAE への実験的変換。
モデルが Flux2 VAE に適応できる能力を確認しており、現在の傾向から、より大規模な学習により大幅な改善が可能である可能性があります。これにより、より大きなモデルと競合できるようになるかもしれません。
私たちを支援することで、その実現を可能にできます。
支援に関する詳細:こちらをクリック
モデルの説明
これは、SDXL U-Net と Flux2 VAE を組み合わせたネイティブな学習モデルです。元々の4チャネルモデルを、Flux 2 の32チャネル複素数表現に適応させました。アダプターやトリックは一切使用せず、完全にネイティブです。
これには、NoobAI の Danbooru データセットが使用されています。
計算リソースの制約により、完全な収束は達成できませんでした。出力は非常に初期のアニメモデルと同等のレベルになるとお考えください。コミュニティがこのモデルに興味を持ってくれ、私たちを支援してくれることを願っています。学習全体を通じて安定した収束が観測されており、さらなる学習により、高速なローカルアニメ生成の新たな基準が確立されると信じています。
このモデルは最終製品ではなく、コンセプトプロトタイプとしてご活用ください。
学習には Rectified Flow を使用し、Flux2 VAE の適応を段階的に実施しました。
大部分の知識は保持されていますが、完全に新しい潜在空間への移行により、その強度は大幅に低下しています。
- 開発者: Cabal Research (Bluvoll, Anzhc)
- 資金提供: コミュニティ、Bluvoll
- ライセンス: fair-ai-public-license-1.0-sd
- 元モデル: NoobAI-RF
バイアスと制限
この根本的なタスクに対して、予算が限られているため、ある程度許容できる画像出力(Flux 2 VAE を用いた理論的な NoobAI 0.1 の知識に近い)を得るまでに適応できましたが、さらなる進展には大規模な計算リソースが必要です。なぜなら、モデルは新しいレベルの詳細(およびそれまでの詳細を新たな視点で)を初めて学習している段階にあり、非常に困難だからです。
公式データセットに存在するほとんどのバイアス(Blue Archive など)が適用されます。
ノイズ、ぼやけた詳細、風景アスペクト比での低性能、手の不自然さ、全体的な構図の問題が発生する可能性があります。
モデル出力の例
得られた利点の一つは色です:

ネイティブなフローモデルであるため、色が鮮やかでありながら、酸性化や不安定化を引き起こしません。
前述の通り、ジューシーな詳細まで収束していないため、すべての生成物に少なくとも多少の粒状性やぼやけが見られることをご理解ください。
推奨パラメータ:
サンプラー: Euler, Euler A, DPM++ SDE など
ステップ数: 20-28
CFG: 6-9
スケジュール: Normal/Simple/SGM Uniform/Quadratic
ポジティブ品質タグ: masterpiece, best quality
ネガティブタグ: worst quality, normal quality, bad anatomy
A1111 WebUI
(すべてのスクリーンショットは、設定に違いがないため、私たちの RF リリースと同一です)
推奨 WebUI: ReForge — フローモデルをネイティブにサポートしており、Flux2VAE に基づく SDXL 改変版のネイティブ対応を PR しています。
ReForge での使用方法:
(上部の Sigma max フィールドは無視してください。RF では使用されません)
ReForge における RF のサポートは、組み込み拡張機能を通じて実装されています:
上記のパラメータを設定すれば、すぐに使用できます。
Flux2VAE には現在、適切な高品質プレビュー手法が存在しないため、Approx Cheap オプションを使用してください。これにより、単純な PCA 投影(ReForge)を確認できます。
推奨パラメータ:
サンプラー: Euler A Comfy RF, Euler, DPM++ SDE Comfy など すべてのバリアントは、利用可能であれば必ず RF または Comfy である必要があります。ComfyUI ではルーティングは自動ですが、WebUI では自動ではありません。
ステップ数: 20-28
CFG: 6-9
スケジュール: Normal/Simple/SGM Uniform
ポジティブ品質タグ: masterpiece, best quality
ネガティブタグ: worst quality, normal quality, bad anatomy
RF のための ADETAILER フィックス: デフォルトで Adetailer は Advanced Model Sampling 拡張機能を無視し、RF を破壊します。設定のこの部分に AMS を追加する必要があります:
ここに advanced_model_sampling_script,advanced_model_sampling_script_backported を追加してください。
うまくいかない場合は、adetailer 拡張機能内にある args.py を開き、_builtin_scripts を以下のように置き換えてください:
学習
モデル構成
(元モデルに対する相対的な構成)
Unet: 同一
CLIP L: 同一、固定
CLIP G: 同一、固定
VAE: Flux2 VAE
学習詳細
(メインステージ学習)
学習サンプル数(バッチ化されていないステップ): 約1850万サンプル
学習率: 5e-5
有効バッチサイズ: 1472(92 バッチサイズ × 2 アキュムレーション × 8 GPU)
精度: Full BF16
最適化アルゴリズム: AdamW8bit + Kahan Summation
重み減衰: 0.01
スケジュール: ウォームアップ付き定数
タイムステップサンプリング戦略: Logit-Normal -0.2 1.5(しばしば Lognorm と呼ばれる)、Shift 2.5
テキストエンコーダ: 固定
トークン保持: False
タグドロップアウト: 10%
Uncond ドロップアウト: 10%
シャッフル: True
VAE コンボリューションパディング: False
VAE シフト: 0.0760
VAE スケール: 0.6043
追加機能: Protected Tags, Cosine Optimal Transport
学習データ
元の NoobAI データセットの2エポック(2024年10月までの画像を含む、スクリーンキャップデータは除く)。
LoRA 学習
現在の段階は学習可能ですが、ベースモデルが細部まで収束していないため、対象・コンテンツが小さな詳細に依存する場合、正確な再現が困難です。私の現在のスタイル学習設定(Anzhc):
学習率: 最大 7.5e-4 までテスト済み
バッチサイズ: 144(6 リアル × 24 アキュムレーション)、SGA(確率的勾配アキュムレーション)使用 — SGA を使用しない場合、アキュムレーションは 4-8 に下げていた可能性があります。
最適化アルゴリズム: Adamw8bit + Kahan Summation
スケジュール: ReREX(簡易性のため REX、またはコサインアニーリングを使用)
精度: Full BF16
重み減衰: 0.02
タイムステップサンプリング戦略: Logit-Normal(0.0 1.0 または -0.2 1.5)、Shift 2.5
Dim/Alpha/Conv/Alpha: 24/24/24/24(Lycoris/Locon)
テキストエンコーダ: 固定
最適輸送: True
想定データセットサイズ: 100枚(10枚でも可能ですが、繰り返しをバランスさせてこの目標に近づけてください)
エポック数: 50
ハードウェア
モデルはクラウドの8xH200ノードで学習されました。
ソフトウェア
SD-Scripts のカスタムフォーク(Bluvoll が維持)
感謝の言葉
特別な謝辞
全体の学習を単独で資金提供し、匿名を希望された特別な支援者へ
支援
私たちが「ワイフ」を0.2%ずつ改善し続ける努力を支援したい場合、以下からご支援いただけます:
暗号通貨リンクは準備中です。
将来の可能性
必要な計算リソース: モデルは、少なくともフルデータで20エポック、理想としては35エポックが必要であると推定しています。私たちが使用するプロバイダーでは、1エポックあたり約460ドルです。そのため、少なくとも2エポック分の寄付が集まるたびに、学習を再開し、さらに学習を進めます。十分な寄付が集まれば、データセットを最新のものに更新します。
なぜ今すぐ行わないのか?Flux 2 VAE でのキャッシュには最大15時間かかり、各潜在変数が2MBであるため、±20TBのストレージが必要で、これだけで180ドルの計算コストがかかります。
このモデルのリリース時点では、パイプラインとコンポーネントのさらなる改善を進めています。このアーキテクチャのアップグレードも計画中です。


























