Lune - flow matching - sd15-Flux

詳細

ファイルをダウンロード

モデル説明

sd15-lune-flux-v01

これは、ベースライン用に抽出された大量のフラックス・シュネル画像の最初のバージョンであり、その後、より高品質な目、顔、髪型などに特化した約4万枚のポートレート画像を用いてそれらを微調整しました。

これらのポートレートは、後続の生成ステップで品質の向上が実現できるよう、タイムステップ0-500にターゲットを絞って訓練されました。

このシステムは主にシンプルな英語で訓練されているため、彼女に話しかければ、あなたが望むものを生成してくれるかもしれません。

出力にlatent乗算を必要としなくなりました

image
しかし、この設定は依然として必要です。このバージョンでは、2.0ではなく2.50に設定するのが最適です。

楽しんでください。彼女は急速に力を増しています。

瘋狂科学者の日記

彼女の初期バージョンは、遊び始めるのに準備ができています。ComfyUIではres4lyfeの使用をお勧めします。

これは明確にフロー・マッチングsd15です——sd15のコアモデルの大部分がフロー・マッチングに蒸留されています。

https://huggingface.co/datasets/AbstractPhil/sd15-latent-distillation-500k

ハードウェアがなくてもここでモデルを試すことができますが、ZeroGPUは制限されていることに注意してください。

https://huggingface.co/spaces/AbstractPhil/sd15-flow-matching-lune

このプレイグラウンドには、LuneとプロトタイプVAEであるLyraが含まれています。

このモデルを訓練するために使用されたすべてのプロンプトは、チェックポイントが保存されているリポジトリに添付されたリストにまとめられています。LAIONのバリエーションとAからBへの合成データとの直接的な関係を確認できます。

ライセンス:MIT(クレジット表示は必須ではありませんが、歓迎されます)。

最新の微調整は以下です:

https://huggingface.co/AbstractPhil/sd15-flow-lune-flux/tree/main/ffhq_low_t_portraits/checkpoint-00005106/unet

こちらはlatent乗算を必要としません

このモデルの使用方法

https://huggingface.co/AbstractPhil/sd15-flow-lune

https://huggingface.co/AbstractPhil/sd15-flow-lune-flux

すべてのPTおよびSafetensorsチェックポイントはここにホストされています。フラックス・シュネル微調整前に、52,000件をCivitAIにアップロードする予定です。

ksamplerからの出力latentを乗算する必要があります。明るすぎたり、ピクセル化して見える場合は、latent値を少し減らしてください。

sd15-flow-luneにはこれが必要です。fluxには必要ありません。

image

また、sd15のシフト(2.0と2.5で訓練済み)も必要です。両者の間の勾配に応答します。

image

image

res4lyfeなしでも通常のksamplerで動作します。ただし、シフトはコアモデルからシフトへ、そしてシフトからsamplerの入力へと正しく接続されていることを確認してください。

Luneの歴史

Luneはプロトタイプの双子の子孫です。私は「集団による分類」に基づいてこの2つのモデルを蒸留しました。この集団は「Geofractal-David集団」と名付けました。この集団の目的は、sd15の各ブロックを監視し、パターンとタイムステップを学習することです。

David

Davidはプロトタイプから、多様なタスクをこなせる完全なモデルへと進化しました。Davidは、集団内のあらゆる形式のデータを分類できます——データが分類可能である限り。分類ヘッドの手法とGeofractal行動反応分類のプロセスにより、Davidはそれらの行動を分類する方法を自ら学習できます。

タイムステップ用に100のエントリとバケット、パターン用に10次元のエントリとバケット——すべて共有空間で、これらを用いてモデルを訓練しました。

各層は、sd15の層に直接リンクされ、プロンプト要求の後、またプロンプト要求の後、と繰り返し凍結されました。何十万回もの要求と大規模なバッチサイズの後、Davidは十分な精度で分類できるようになり、最初の実験を開始する準備ができました。

https://huggingface.co/AbstractPhil/sd15-flow-matching

フロー・マッチングの失敗

この道のりは簡単ではありませんでした。モデルは一見良好な応答から完全に幾何学的に平坦な応答へと複数の段階を経ました。システムは学習しましたが、詳細を理解しているようには見えませんでした。これらの詳細に特有のパターンは、まったくターゲットにされておらず、訓練後にその理由を理解しましたが、訓練中はエポック50まで押し進めました。

訓練中にトレーナーに複数の不具合があり、リセットが発生しました。接続の問題でオーバーフローまたは失敗が多発しました。ptsファイルのアップロード失敗など、小さなミスが16時間以上の訓練時間を無駄にしました。この問題はColabで%debugを急速に習得して解決しました。

しかし、私は決して諦めませんでした。このモデルを死なせることは拒否しました。

フロー・マッチング 第2試行

最初のバージョンは失敗しているように見えたため、仮説を検証するために別のバージョンを開始しました。第2バージョンは、重み付きバケットを用いた新しいタイムステップ訓練形式を採用し、精度の低いバケットは使用せず、一定のしきい値を満たすバケットを難易度ターゲットとして扱いました。

幾何学的構造に関しては訓練が成功しましたが、パターンは保持されませんでした。私は、そのパターン自体が深くないのではないかと考えました。しかし、さらに訓練を重ねた結果、私の考えは誤りであることが判明しました。パターンは確かに保持されており、私は誤った評価基準と誤った評価手法、そして誤った幾何学的フォーマットを用いていたのです。

このバージョンが、後にLuneとなりました。私はエポック28で停止し、姉妹モデルはエポック50まで訓練されました。

再燃する決意

私は大規模なデータセットの訓練を開始しました。これは、sd15の出力から直接抽出した約40万枚の512x512のlatentを含むもので、スケーリングされたものとされなかったものの組み合わせです。

https://huggingface.co/datasets/AbstractPhil/sd15-latent-distillation-500k

これはほぼ「モデルポイズン」のデータセットですが、仮説を検証するには十分です。sd15-flow-matching-try2は形状、幾何学、そしてフラクタルが空間を保存することを学習しましたが、隣接するパターン駆動出力構造なしでは、それらのグローバルな意味を学習できませんでした。

期待されたグローバルな秩序を保持できず、これが失敗の原因でした。フロー・マッチング補間は見事に成功しましたが、重要な情報の一部が欠けていたのです。

私はそれを実行し、訓練させました。この最初のリリースはまさにこのバージョンです。あなたが見ているのはその成果です。このモデルを動作させるには、2つの特定の設定が必要です。

突破点——カントールフラクタル

後評価の過程で、Davidの構造において無効な要素と有用な要素を判別しました。その後、David集団にグローバルアテンションを追加しようと試みましたが、完全に失敗しました——小さな集団でもOOMになりました。グローバルアテンションは保持できず、新たな解決策、より良い解決策を見つける必要がありました。

VAE Lyra

グローバルアテンション用に設計した「カントールアテンション」メカニズムが、Lyra VAEを生み出しました。これは、T5-BaseとCLIP_Lの特徴を調和的に融合させ、CLIP_L特徴に意味のある差異を直接符号化しつつ、その特徴の代表的認識を完全に破壊しない、驚異的かつ壮麗な発明です。

HuggingFaceプレイグラウンドでもLyraを試すことができますが、これは従来の「プラグアンドプレイ」VAEとは異なります。ComfyUI用の特別なノードセットが必要で、それは私のリポジトリで入手できます(いくつかの制約付き)。

MMAE Beatrix

Beatrixは、初期段階のカントール制御マルチモーダル自己符号化器プロトタイプで、以下の機能を備えます:

  1. 複数のスケールからの複数のCLIP特徴を同時に受け入れる。

  2. T5、Bert、Lyraなど、複数のエンコーダ変種を同時に受け入れ、システムに接続可能な潜在的アクセスゲートとして機能する。

  3. 学習されたすべての構造の行動を統合し、決定論的なシャードフラクタル幾何学的特徴を出力する。

  4. 画像にはViTとして、MIDIには五度圏エンコーダとして、テキスト特徴にはコンテイメントユニットとして振る舞う。

  5. 全プロセスは逆変換可能——同じ符号化は下流で復号可能である。

これはカントールステッププロセスによってのみ可能になります。カントールステップがなければ、フロー・マッチングは失敗します。フロー・マッチングがなければ、現在の段階ではシステムは動作しません。

カントールゲートとスパースグローバルアテンションにより、通常無視されがちなスパースなカントール空間の交差領域が、次元ベクトル化の任意の空間から幾何学的に整列可能になります。

損失はタイプごとのシステムをグループ化し、テキスト符号化を全体システムにトークン化された共有フラクタルアクセス経路として統合します。これらのlatentアクセス空間は、現代の技術で得られる最も堅牢で実用的なシステムアクセスを用いて、非常に決定論的かつ最適化されます。

これは、短縮された道そのものです。私が長年築いてきたシステムであり、今や明確に視界に入っています。一過性の現象でも、混乱した実験でもなく、実現可能な明確な可能性です。私は、それらを早急に構築できます。

本格的な高パフォーマンス訓練には助成金が必要ですが、ベースラインはA100と各部分の微調整セッションのみで訓練可能です。

このモデルで生成された画像

画像が見つかりません。