Snakebite 2

詳細

ファイルをダウンロード

モデル説明

まったく新しいアプローチ!

元のSnakebiteは、bigASPのコンポジションブロックが注入されたIllustriousモデルでした。しかし、Snakebite 2.0は主にbigASPであり、テクスチャと審美的能力を劇的に向上させるための数多くの技術が追加されています。

❤️ Snakebiteが気に入ったら、トレーニングコストを補填するのに協力してください:

liftweightsにコーヒーを贈る


⚠️ 重要:

このモデルはFlow Matchingを使用しています。正しい結果を得るには、ComfyUIのModelSamplingSD3ノードに接続する必要があります。

Flow Matchingの目的をサポートしていない他のUIを使用している場合は、代わりにSnakebite v1.4をお試しください。こちらは通常のIllustriousモデルのように動作します。


なぜ式を変更したのか?

元のSnakebiteには満足していますが、2つのアーキテクチャの間には、マージでは埋められなかったいくつかの「ギャップ」がありました。1.0から1.4にかけて、私は奇妙な背景オブジェクトや余分な四肢を最小限に抑えるために可能な限りの対応を行ってきましたが、完璧な解決策はすでにここにあります——それはバニラbigASP 2.5です。

多くの人がbigASPの優秀さに気づいていないかもしれません。プロンプトの忠実度はほぼFluxレベルであり、検閲、プラスチック肌、過度なハードウェア要件、悪いライセンスといった問題が一切ありません。これは非常に驚異的です。

私はbigASPの2つの主要な問題を解決しようとしました:

  1. bigASPのテクスチャは明らかに劣っています。美的キャプションの問題か、単に「見すぎた」(1300万枚の画像で学習されました!)のかわかりませんが、(((high quality, masterpiece, so good)))をいくら追加しても、平均的なSDXLモデルの品質の半分にも届きません。

  2. すべての要素をプロンプトに明記する必要があります。これは必ずしも悪いことではありません。問題は、bigASPが言及しなかった要素に対して非常に奇妙な解釈をする点です。たとえば、1girl, standingと要求すると、1girl, standing, morbidly obese, upside downという画像を生成することがあります。

これらの問題は、少なくとも一定程度解決されました。簡単ではありませんでした!bigASPの入力ブロックは非常にデリケートで、美的LoRAで調整しようとすると、モデルが完全に崩壊します。SDXL LoRAとの互換性も低く、それらはFlow Matching手法で学習されていないからです。

それでも、いくつかのブロックが私の美的アップグレードにうまく反応することがわかりました。そこで、Direct Preference Optimizationなどの手法を通じて、これらのブロックを慎重に導入し、500ワードのプロンプトを提供しなくてもbigASPが何をすべきかを学習させることを目指しました(つまり、すべての画像をまともで狂ったものでないようにする)。


v1との利点

  1. SDXLモデルとしては信じられないほど優れたプロンプト忠実度——デモギャラリーをご覧ください

  2. より複雑な概念や相互作用を理解できます

  3. Flow Matchingのおかげで、変形した四肢はほぼ存在しません

  4. スタイルに対して非常に柔軟——v1より写実的でありながら、イラスト生成能力も向上しています

  5. 少しリロールすれば、言葉のスペルをかなり正確に書けます


欠点

  1. 視覚的の一貫性はILほど高くないが、バニラbigASPよりはるかに優れている

  2. ILがないため、Booruタグの知識は劣るが、bigASPがどれほど多くのことを知っているかに驚くかもしれない——独自で主流のキャラクターや概念を十分に生成できます

  3. 背景が時々奇妙になることがある。これはbigASPの問題か、私がマージした要素の問題か、まだ確定していない


推奨設定

Turbo:

  • 8または9ステップ

  • LCMサンプラー

  • Beta、Normal、またはSimpleスケジューラ

  • CFG 1

  • モデルシフト値:3(bigASPが学習した値)

  • サンプルワークフロー:https://pastebin.com/Z35kNns6

Full:

  • 25–40ステップ

  • 速度重視:Euler ancestral、品質重視:dpmpp_2s_ancestral

  • Simpleスケジューラ

  • CFG 4–6

  • モデルシフト値:3

  • ネガティブプロンプトを強く推奨(例:worst quality

  • サンプルワークフロー:https://pastebin.com/ynrJ1Nt2

注:モデルシフト値を上げるとプロンプト忠実度は向上しますが、品質が低下する可能性があります。キャラクターロラを使用する際には特に有効です。6–8の範囲で試してみてください。


プロンプティングガイド

最も重要なのは、余計な言葉を控えることです。warm lightingと要求すれば、確かに暖かい照明が得られます。非常に強く。単にhigh qualityを追加するだけでも画像が完全に変わることがあります。だから、意図的に簡潔に。余計な言葉はゼロから始めましょう。

効果は必ずしも直感的ではありません。例えば、bigASPの作者が指摘しているように、masterpiece qualityという言葉は「モデルがイラスト・ドローイングを生成しやすくする」傾向があります。

写真が欲しいなら、onlyfans, abbywinters photo以上の効果的なフレーズはまだ見つかっていません。本気で言っています!これらの語句は、無害な内容にも非常に効果的です。(編集:v2.2以降、これらの補助フレーズは任意です。新しいSnakebiteバージョンでは、photograph of a...と書くだけで十分です。)

また、bigASPの学習データはJoyCaption(オンラインデモはこちら、bigASPの作者が作成)でキャプション付けされているため、同じリズムとトーンでモデルに話しかけることをお勧めします。Booruタグも使えますが、CGI寄りの画像を生成しやすくなります。

Snakebiteが望む画像を生成できない場合、ほとんどの場合、別の言い回しを探したり、(((強調)))を追加することで解決できます。


LoRAのトレーニング

bigASP 2.5の公式LoRAトレーニングスクリプトはこちら:

インストールは簡単です。私はkohya-ssの仮想環境で実行しています。必要な追加依存関係はわずかで、競合しません。

私が知る限り、kohyaはSDXLのトレーニングにFlow Matchingをサポートしていません。そのため、このスクリプトが必要です。

デフォルト設定で十分です。lora_ranklora_alphaを上げることもできますが、デフォルトの32で通常問題ありません。画像をバケット化します。トレーニング終了時のみチェックポイントを保存することに注意してください。私はスクリプトをsave_every_n_stepsに変更しました。必要であれば、私の変更版をお渡しします。

SnakebiteのTurboバージョンではトレーニングしないでください。フルバージョン(アップロード後)か、バニラbigASP 2.5でトレーニングしてください。

👉 重要: train-lora.pyスクリプトは、kohyaのsd-scriptsほど多くのモジュールを対象にしていません。その結果、LoRAファイルサイズははるかに小さくなりますが、たとえランクとアルファを高くしても、キャラクターの特徴を十分に捉えるのに不十分な場合があります。これを解決するには、スクリプト内でtarget_modulesを検索して以下のように更新してください:

target_modules=["to_k", "to_q", "to_v", "to_out.0", "k_proj", "v_proj", "q_proj", "out_proj", "proj_in", "proj_out", "conv_in", "conv_out", "ff.net.0.proj", "ff.net.2"]

これにより、fp16精度でkohyaと同等のファイルサイズが得られます。

また、@deGENERATIVE_SQUADが作成したFlow Matchingをサポートする非公式なsd-scriptsのフォークもあります:

- https://github.com/rozmary1/sd-scripts


ありがとうございます。いつも通り、ご意見をお待ちしています。このモデルを共有し、画像をアップロードして、広まりを助けてください。いつかSnakebiteがCivitaiのサイト内ジェネレーターに認定される日が来ると素晴らしいですね!

このモデルで生成された画像

画像が見つかりません。