Rouwei-Gemma
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
Gemma-3-1b を Rouwei 0.8 のテキストエンコーダーとして使用するためのトレーニング済みアダプタ
v0.1 更新:
gemma-3-1b アダプタの新バージョンが利用可能
正しく動作させるには、アダプタモデル(本ページおよび HF にアップロード済み)と トレーニング済み LLM の両方をダウンロードして使用する必要があります。LLM は 単一の gguf ファイル として、または ディレクトリ形式 で HF-Hub からダウンロードできます。
実行には更新されたカスタムノードが必要です。ワークフローの例はショーケースまたは こちら で確認できます。その他の例は こちら でご覧ください。
新しいバージョンはプロンプトの忠実度が向上し、各キャラクターの個別特性を記述する構造化プロンプトの使用が可能になり、シンプルなコミックスの作成も可能で、アニメアートに関する知識がより豊富です。まだ完璧ではありませんが、従来の CLIP エンコーダーを大幅に上回り、一般的なタグの漏れなしに長く詳細なプロンプトを利用できます。
t5gemma-2b 用バージョンも利用可能
別のアプローチで実施した並列実験として、t5gemma-2b-2b-ul2 のテキストエンコーダーを使用し、その出力を SDXL UNet 用に変換するアダプタをトレーニングしました。短いトレーニング期間かつ t5gemma エンコーダーを直接使用しているにもかかわらず、非常に良いパフォーマンスを示しています。キャラクターやアーティストスタイルに関する知識では gemma-3-1b をテキストエンコーダーとするバージョンを既に上回っていますが、複雑なプロンプトにはやや不正確です。
実行には gemma-llm 用とは異なるワークフローが必要です(ショーケースの対応バージョンまたは こちら を参照)。
動作には更新された カスタムノード が必要です
詳細な実行手順とプロンプティングのヒントは以下に記載
これは何ですか:
LLM の力を活用してプロンプト理解とコンディショニング生成を行う、SDXL テキストエンコーダーのドロップイン置換品です。
ELLA、SDXL-T5 などと同様の概念ですが、このモデルはアニメモデルに特化し、審査なしで高度な知識を提供することを目的としています。
なぜ重要なのか:
SDXL は、比較的低い計算コストで高速かつ優れた美的な多様性を持つ結果を生成できることを証明しています。しかし、プロンプトの忠実度は CLIP の使用により大きく制限されています。また、75トークンを超えるプロンプトを処理するには分割が必要で、その過程で元の意味が歪むことがあります。
CLIP をより新しく進化したモデルで置き換えることで、複雑なプロンプトの理解能力を大幅に向上させ、既存の利点を維持しつつ制御性を高める可能性があります。さらに、画像、座標、OpenPose からのポーズ、各キャラクターごとの個別プロンプトなどを追加し、メインプロンプトと連携させることも可能です。
動作原理:
テキストプロンプトは LLM によって処理され、最終層のヒドンステートがアダプタによって処理され、カジュアルアテンションの補正と SDXL UNet 用の条件への再整形が行われます。
なぜ gemma-3 なのか?
単に実験用に適した、比較的安定で小さなモデルだからです。今後の開発では、qwen-vl または他のモデルに置き換わる可能性があります。
心配しないでください。この LLM の推論には、検閲や拒否は一切含まれていません。この仕組みは「モデルの理解」を表すヒドンステートだけを利用しています。
これができる(現在):
まず第一に、現在の段階では実用的なツールというより、概念実証に近いものです。トレーニング予算の制約を考えると、動くだけでも奇跡です。
これまで使用していた booru タグの処理
自然言語プロンプトの処理(非常に短いものから長いものまで、最大512トークンまで対応(gemmaトークナイザー))
マークダウン、XML、JSON などのフォーマットを用いた構造化プロンプトで、各要素の位置を明確に指定可能
上記の任意の組み合わせ
理解できている限り、タグの漏れなし
標準的なテキストエンコーダーとして機能しつつ、長い表現の理解を深め、複数の条件を互いに溶け合わさずに保持できます。
現在できないこと:
非常に複雑なプロンプトでは苦戦する可能性がある
知識が不均一で、非常にレアなキャラクターは認識できるが、よりポピュラーなキャラクターを混乱させることがある
スタイルについても同様
一部のアーティストスタイルの使用がプロンプト理解を妨げ、一部の要素を無視する原因になる
品質の高いテキストを生成できない
強調(タグの重み:1.1)や一般的なスペルの処理ができない
これらはさらにトレーニングすることで解決されます。1 は UNet のトレーニングが必要、2-4 は LLM が単にこれらの語を認識していないため、反応が弱すぎるため LLM のトレーニングが必要。5 はより多くのトレーニング(および対応するデータセット)で解決されます。6 はカスタムノードの改善が必要で、間もなく追加されます。
実行方法:
LLM gemma-3-1b エンコーダー(v0.1_g3-1b_51k とラベル付け)
Comfy 用 カスタムノード をインストール
gemma-3 をサポートするバージョンの Transformers に更新し、Comfy の venv に
ggufPython パッケージをインストールアダプタをダウンロードし、
/models/llm_adaptersに配置トレーニング済み LLM の GGUF または HF をダウンロードし、
/models/LLM/に配置(HF の場合はディレクトリ全体を、元のモデルのすべてのファイルが必要です。.safetensors だけでは不十分です。モデル名のフォルダがなければ作成)まだ持っていない場合は Rouwei(vpred または epsilon または base)のチェックポイントをダウンロード
ショーケースの画像をワークフローの参考にし、自由に実験
以前のバージョン 0.0alpha は元の gemma-3-1b-it(非制限ミラー)を使用
T5gemma-2b エンコーダー
上記と同様の手順ですが、以下の点が異なります:
- google/t5gemma-2b-2b-ul2 または 再パッケージされたエンコーダーのみ をダウンロード
HF-Hub を使用して以下のようにダウンロードできます:
hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "/path/to/comfy/models/LLM"
アダプタをダウンロード
t5gemma 用のワークフローは少し異なります。ショーケース画像を確認してください。
現在、GGUF は t5gemma アーキテクチャをサポートしていませんが、今後追加される予定です。
プロンプティング:
新しいパイプラインはほぼ任意のプロンプト形式をサポートし、非常に柔軟です(base64 や多言語もサポートしますが、パフォーマンスは低下します)。最良の結果を得るには、次のパターンに従ってください:
タグのみ:サポートされています。問題なく動作しますが、これだけに限定する実用的な意味はありません
長い自然言語プロンプト:現時点の開発段階で複雑さが高すぎない限り、問題なく動作します。過剰な修飾語や無意味な埋め草は避けてください
構造化プロンプト:ここが最も興味深い部分です。JSON(ToriiGate の例のように)、XML、その他の形式が使えますが、最も便利なのは Markdown です。主に # 見出しを使ってプロンプトの各部分を分離し、特定の要素を指し示します。これはタグと自然言語プロンプトの両方で機能します。例:
2girls, wakamo (blue archive), izuna (blue archive), richly decorated room, from above, masterpiece.
## Character 1
Wakamo (blue archive), a fox girl with black hair, yellow eyes and fox mask standing on the left wearing maid outfit. She holds tray with a unworn panties. Her expression is smug and confident, she proudly presenting the tray.
## Character 2
Izuna (blue archive) fox girl with brown hair, yellow eyes, hair flower stands on the right. She also wears maid uniform, she is lifting the hem of her skirt showing that she wears no panties. blushing, ashamed
- タグと自然言語表現の任意の組み合わせ
考えられる問題:
タグや単語の順序によって影響が出ることがあり、特定のキャラクターや概念に対してバイアスが生じることがあります
CLIP エンコーダーと比べて、スペルの正確さがはるかに重要です
一部の場合、アーティストやスタイルタグの使用が強いバイアスを生み、プロンプトの実行を難しくします。前バージョンと比べてはるかに改善されています
まだ実験段階ですが、デフォルトの SDXL エンコーダーと比較して優れた結果を示している一方、Flux などの新しい大規模モデルと比べると弱いです
現在のカスタムノードはプロンプトの重みと標準的なスペルをサポートしていません。また(カッコ)はそのままにしてください。\ を追加する必要はありません。
その他の設定と推奨事項は、オリジナルの RouWei と同様です。
品質タグ:
ポジティブ:
masterpiece または best quality の両方を使っても、改善効果はほとんど期待できません。または、省略しても構いません。余計な「魔法の組み合わせ」を避け、シンプルに保つことが重要です。これらはプロンプトの最終部に配置してください。
ネガティブ:
worst quality または low quality。ポジティブと同様です。特定の画像に出てほしくない要素だけを追加し、一般論として追加するのは避けてください。
知識:
人気キャラクターを知り、アーティストのスタイルを模倣し、概念やその他の要素を理解できます。ただし、これらの知識は今後のトレーニングで強化されるべき LLM の制限と、アニメ画像から構成される現在のデータセットと UNet の能力に制約されています。
互換性:
Rouwei 用に設計されていますが、そのマージやチューニングとも動作します。Illustrious モデル、Noobai、他の SDXL チェックポイントとは限定的な互換性がある可能性があります。
近期の計画:
最も有望な UNet トレーニング方針を決定するためのさらなる検証と比較
カスタムノードの強調機能の実装
トレーニングコードの公開
…
トレーニング予算:
- ビール 3リットル、コーヒー 0.5リットル、3台の5090で数日(現在2週間)
協力・共同作業をご希望の方へ:
ご意見や提案、リクエストなどは Discord サーバー に参加してください。直接こちらに書き込むか、Discord でダイレクトメッセージください。
寄付:
BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
感謝:
NeuroSenko(コード)、Rimuru(アイデア、議論)、Lord(テスト)、DraconicDragon(修正、テスト)
それ以前にサポートしてくれた方々にも心より感謝します:
多数の匿名の方々、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、OpenRoot-Compute、rred、Soviet Cat、Sv1.、T.、TekeshiX
ライセンス
このツールは、google/t5gemma-2b-2b-ul2 および google/gemma-3-1b-it のオリジナルまたはファインチューニングモデルを利用しています。
Gemma は ai.google.dev/gemma/terms に記載された Gemma 利用規約の下で提供されます。
アダプタモデルは MIT ライセンスです。




















