AstolfoMix-XL
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
AstolfoMix-XL
"256c" と "215c" は複数のマージ手法から構成されています(215a "DELLA" と 215b "Git-Rebasin")は、257 (216) で発見された SDXL モデル(フィルタリングされていない) を使用しています。説明についてはこの記事をご覧ください。「ある程度公式リリース」の前に HuggingFace モデルページでサネック Peek をどうぞ。この内容・理論は、SD1 バージョンやSD2 バージョンと重複せず、以下は SDXL に限定された内容です。フルドキュメント/資料は GitHub にあります。
よりシャープな画像には CFG++ / PAG / SEG の組み合わせを使用してください。
CivitAI ユーザー向け:CFG 3.0、CLIP skip 2、デフォルト VAE。
(215c) 品質タグは必要ありませんが、過剰なタグでもブレイクすることはありません。
(256c) 215c よりやや一貫性が低く、人間キャラクターへの焦点がやや薄いようです。
(255c) プロンプトに従いません。トレーニング用の良いベースモデルになります。このモデルは SDXL1.0 よりもさらにアンダーフィットです。255c はレシピが破損しており、誤ったベースモデルが選択されていることが確認されています。
抽象
AstolfoMix-XL を発表します。これは「マージオプションの探求」に焦点を当てたマージモデルであり、一方で人気モデルのマージに固執し、SD3 の登場を待っている状態です。現時点ではアニメスタイルです。ようこそ、Astolfo、あなたはとてもかわいい!
はじめに
AstolfoMix-XL は、以前のモデル(SD1 / SD2)の「スケールアップ」マージ版であり、私の記事をさらに拡張するための有用なアイデアを見出し、インターネット上の貴重なコンテンツ(および概念)を再利用することを目指しています。haystack が大きすぎて手動でマージするのは不可能です。専用マージャー(mergekit など)を使用して、中間モデルを保存せずに自動処理することで、学習済み素材からより「汎用的で高品質な」コンテンツを生成できると期待しています。
関連研究
これは難しい。この学術的アプローチは復興なのか、それとも後退なのか?
モデルマージはアンサンブル学習の拡張トピックであり、AI モデルのマージアルゴリズムは多数存在し、LLM モデルは巨大でトレーニングコストが高いため、正式に議論されています。多くのマージアルゴリズムは論文のコードリポジトリ内で提案されています(DARE)、または忘れ去られています(Git Rebasin の MergeMany)、または文書化されていません(「rotate」+他の「行列演算」)。一方、専用マージャー(mergekit または supermerger)は開発されています。
わずかな信念(MDP=AR(1)、つまり LLM のマージが SD マージに適用可能)のもと、多くの実験(SD1 は ModelSoup、SD2 はアラインメントなしでのモデル選択、その後PR、PR、PR —— なぜなら公開されたコードベースが存在しなかったため)、そして_運が味方した_ことで、私は「やり遂げて公開する」勇気を持ちました。コミュニティのサポートがほとんどない(特に NAI v3 後、ファインチューニングのブーム後、または MBW 理論が実際には無効であると気づいたため)中で、これは非常に困難でした。それは最適化ループによってパラメータを導入することで機能しているだけで、芸術的ではありません。
たとえば、AnythingXL のリリースレシピから、私は「7つのモデルの平均、各モデルは14.2857%、一方で好みのモデルを2倍の28.5714%として取り込む」と解釈できます。一方で、PonyMagine はカスタムレシピの上に DARE を成功裏に適用しています。
方法論
融合は玄人向けでなくてもいいが、門戸は少し高い(魔改式)だけだ。
ここでは別途議論を展開するか、このプラットフォームで記事を書くか、 GitHub の私の記事 (これも )または CivitAI 上の別記事 (まだ書いていない場合)を参照してください。
SD のモデルマージがこのレベルでは議論が乏しいため、私は参照すべきものがなく、慎重に根拠を示し洞察を生み出すしかありません。「関連研究」の調査(ML/数学的な議論に近いので何度も読み返しました)から、アルゴリズムの修正が不可欠であると予想しています。
したがって、まずオリジナルの実装(数か月かかりました)を完了し、次に継承された数学的特性の分析を実施しました。その結果、タスクベクトルは正規化(リスケールのサブセット)されるべきであり、符号選択は符号付きの動きではなく、恒等演算に基づくべきであることがわかりました。なぜなら、SD 下の MDP は RNN と同じ勾配問題に苦しんでいるからです。
一方で、私はモデルのトレーニング(ハードウェア/時間/人材、あるいは興味)や、モデルの徹底的な評価(team lycoris や deepghs のように)を行うリソースを持っていません。私ができることは、モデルがその自然な行動を「投影」していると仮定して、主観的なHTPテストを実施することだけです。そのため、あなたは「ピンクの髪の少年が車とやりとりし、ランダムだが充実した背景を持つ」ような画像を見ることになります。
実験
(215a) 発見されたモデル、フィルタリングプロセス、マージスクリプト(シングルクリックでエンドツーエンド!)、および387行のレシピが生成されました。
パラメータ探索
マージアルゴリズムのパラメータは、モデルプールからランダムに10%(例:192個中20個)を選択してその影響を確認することで見つけました。これによりマージの時間は約20分の1になりながら、最終結果の概算を十分に反映できます。
プロンプト
プロンプトがなくても機能します. 質量詞は本当に必要なのか?
長いプロンプトでも問題なく動作することを確認しました。一方で、私が公開した画像の大半は単に数語だけであり、ネガティブプロンプトはほとんど使用していません(不要なものを除外する必要がほとんどないため)。しかし、品質タグを追加すると、レシピモデル同士が矛盾する知識で互いに競合するため、画像が悪化したり壊れたりすることがあります。
CFG / STEPS / 追加要素
SD1 バージョンと同様に広範囲です。現在、**「CFG 3.0 + PAG 1.0 + mimic 1.0 phi 0.3 + FreeU デフォルト」が良好であることがわかりました。「Euler 48 ステップ」**で十分ですが、私は依然として 256 ステップ + 64 ハイレゾを好んでいます。
議論
最先进のマージアルゴリズムでも、すべてのモデルからすべての概念を学習することはできません。これはトレーニング済みモデル/LoRAs の代替ではなく、さらに発展させるためのベースモデルに過ぎません。より良いベースモデルは、コミュニティの誤解や短視眼的な考え方のせいで無視されています。SD1 / NAIv1 から学んだことは何でしょうか?
Pony が、技術的検討を無視して NSFW の能力だけで受け入れられたことは、残念である、あるいは「棺桶に最後の釘を打つ」ことでした。これによりリソースが持続可能でなくなりました。
この道のりを通じて注目度が低いことは認識しています(ベースラインモデルよりも画像品質が向上し、「ハロー効果」が減った点は大きな進歩です)。しかし、私は(芸術の)歴史に痕跡を残すために、やり遂げる必要があります。私は、インセンティブが極めて低いため、誰もオープンソースモデルの開発に興味を示さないことを知っています。物質的支援も、精神的支援もありません。animagine もすでに消え、一部の有名なモデラー、あるいはそれほど有名でないモデラーたちも去っていきました。
SD コミュニティは、数千の LoRA をベースモデルに再統合し、「芸術的ムーブメント」を継続する必要がある、またはそうせざるを得ないと思います。将来、大量の LoRA、あるいはベースモデルを融合するニーズが必ず発生するでしょう。そのためにも、何らかの方法が必要です。
極端な条件における疑似乱数
255c では、モデル重みの極端な正規化の影響で「モデル重み間のノイズ」が再び現れているように見えます。これはトレーニング軌跡においてバニシング勾配問題と似ています。これはこのシリーズの終わりを示しており、私は正当にモデルをトレーニングすべきです…そして実際にそうしました。ついに融合モデルが壁にぶち当たった。
結論
新しいマージャーは、多数のモデルに対して奇妙なマージアルゴリズムを継続して研究し、モデル構造を同じで便利なまま維持する能力を私に与えてくれました。異なるマージアルゴリズムに基づいてモデルを生成・テストでき次第、この記事を更新する予定です。
付録
レシピについては実験セクションを参照してください。
- このミックスのための私のワークステーション(マージ時間は36.2時間、DGMLA-216 の最大RAM使用量は1.4463.500TB、モデル数に応じてスケールします)。
ライセンス:Fair AI Public License 1.0-SD
詳細については、ANIMAGINE XL 3.0 / Pony Diffusion V6 XL / NoobAI-XL のライセンスセクションをご覧ください。





