Rouwei-Gemma

詳細

ファイルをダウンロード

モデル説明

Rouwei 0.8(およびその他のSDXLモデル)用のテキストエンコーダとしてLLMを使用するためのトレーニング済みアダプター。

v0.2更新:

パフォーマンスが向上したt5gemma-2bテキストエンコーダモデルの新バージョンです。

実行には、t5gemma-2b エンコーダモデルが必要です(アンガーテッドミラー、ダウンロード手順は下記参照)。

動作させるには、最新のカスタムノードが必要です

詳細な起動手順とプロンプティングのヒントは下記をご覧ください

これは何ですか:

SDXLモデルにおけるClipテキストエンコーダの差し替え用ツールで、プロンプトの忠実度と理解力を向上させます。

ELLA、SDXL-T5、および他の類似モデルと同様の機能ですが、本モデルはアニメモデルに特化し、検閲なしで高度な知識を活用します。

主な特徴:

  • SDXLアニメモデルの中で、最も優れたプロンプト忠実度と自然言語理解能力
  • 長いプロンプトと短いプロンプトの両方をサポート。1チャンクあたり75トークンの制限なし
  • スタイルやキャラクターの元の知識を維持しながら、プロンプティングに驚異的な柔軟性を提供
  • キャラクター、部位、要素などを個別に記述できる構造化プロンプトをサポート
  • Booruタグ(単独またはNLと組み合わせて)との完全な互換性を維持し、簡単で便利なプロンプティングを可能に

最新バージョンの実行方法:

1. Comfy用のカスタムノードをインストール/更新

  • オプションa:ComfyUI/custom_nodesに移動し、git clone https://github.com/NeuroSenko/ComfyUI_LLM_SDXL_Adapterを実行
  • オプションb:例ワークフローを開き、ComfyUI Managerで「Install Missing Custom Nodes」ボタンを押す

2. 最新のTransformersがインストールされていることを確認:ComfyUI venvを有効化し、pip install transformers -Uを実行

3. アダプターをダウンロードし、/models/llm_adaptersに配置

4. T5Gemmaをダウンロード

  • オプションa:ComfyUI venvを有効化し、hf download Minthy/RouWei-Gemma --include "t5gemma-2b-2b-ul2_*" --local-dir "./models/LLM"を実行(必要に応じてパスを修正)
  • オプションb:safetensorsファイルをダウンロードし、ComfyUI/models/text_encodersに配置(次回のノード更新で実装予定)

5. まだ持っていない場合は、Rouwei(vpredまたはepsilon、またはbase)チェックポイントをダウンロード

6. ショーケースの画像を参考ワークフローとして使用し、自由に実験してください

gemma-3-1b LLMモデルに基づく以前のバージョンの実行手順は、このHFリポジトリで確認できます。

現在のパフォーマンス:

このバージョンは、さまざまなモデルのClipテキストエンコーダよりも、プロンプト理解において優れています。各キャラクター/オブジェクトの詳細や個別の部位をより一貫性を持って指定でき、純粋なランダム性ではなく、シンプルな漫画(安定性は変動)を構成したり、ポジションや複雑な構図を定義することが可能になります。

ただし、まだ初期段階であり、まれな要素(特にアーティストのスタイル)やバイアスに課題が生じる可能性があります。また、適切なトレーニング(およびおそらく修正)が必要なやや古い小さなUNetを使用しており、FluxやQwenImageのようなトップレベルのオープンソース画像生成モデルと同等のパフォーマンスは期待できません。

使用法とプロンプティング(例):

このモデルは非常に汎用的で、多言語入力やbase64など、さまざまなフォーマットを受け入れます。

ただし、以下のいくつかのプロンプティングスタイルのいずれかに従うことを推奨します:

(ショーケースまたはHFリポジトリのREADMEを参照)

自然言語

kikyou (blue archive) a cat girl with black hair and two cat tails in side-tie bikini swimsuit is standing on all fours balancing on top of swim ring. She is scared with tail raised and afraid of water around.

単純なテキスト。非常に短い、または非常に長いプロンプトは避けてください。

Booruタグ

通常のBooruタグ。

強調機能がノードに追加されるまで、括弧の前に\を追加しないでください。また、Clipとは異なり、スペルミスは誤った結果を引き起こす可能性があります。

タグとNLの組み合わせ:

masterpiece, best quality, by muk (monsieur).
1girl, kokona (blue archive), grey hair, animal ears, brown eyes, smile, wariza,
holding a yellow ball that resembles crying emoji

ほとんどのケースで最も簡単で便利なアプローチです。

構造化プロンプティング:

bold line, masterpiece, classroom.
## Asuka:
ouryuu Asuka Langley in school uniform with tired expression sitting at a school desk, head tilt.
## Zero two:
Zero two (darling in the franxx) in red bodysuit is standing behind and making her a shoulder massage.

Markdownの#(区切り用)、JSON、XML、または改行と:による単純な区切りを理解できます。構造化プロンプティングにより、複数のキャラクターに個別の特徴を指定して結果を改善できます。ケースによっては非常に安定して動作し、ランダム以上でほぼ常に機能しますが、バイアスや複雑さにより、一部の要素を実現するには追加の試行が必要な場合もあります。

すべてを組み合わせた場合:

上記のすべての組み合わせが可能です。最も複雑なケースにおすすめ。

品質タグ:

ポジティブ:masterpieceまたはbest quality

ネガティブ:worst qualityまたはlow qualit

過剰なタグの繰り返しは避けてください。不要なバイアスを引き起こす可能性があります。

現在のカスタムノードはプロンプトの重みと標準的なスプリングをサポートしていません。また、( ) はそのまま使用し、\を追加する必要はありません。

その他の設定と推奨事項は、オリジナルのRouWeiと同様です。

知識とトレーニングデータセット:

トレーニングデータセットは、このデータセットから約270万枚の画像とその他のいくつかのソースを活用しています。まだ比較的少ない数です。

トレーニングとコード

フォワードコード例t5gemmaからのヒドンステートの取得例

LORAトレーニング用sd-scriptsフォーク

フルトレーニング用sd-scripts(devブランチ)フォーク:t5gemma、アダプター、UNetの各部分のファインチューニングをサポート

互換性:

Rouwei用に設計され、Illustriousベースのチェックポイント(NoobAiや人気のマージモデルを含む)と互換性があります。LoRAのUNet部分は動作しますが、TE部分は再トレーニングが必要です。

近期の計画:

  • 強調機能を含むカスタムノードの改善

より大規模なデータセットでトレーニングされた別のバージョンを用意し、モデルの容量を評価し、エンコーダとの共同トレーニングを継続するか、そのままにするかを決定します。

問題が見つからない場合、次世代Rouweiチェックポイントのテキストエンコーダとして使用されます。

協力・サポート希望:

Discordサーバーに参加し、ご意見・提案・リクエストなどを共有してください。ここに直接メッセージを送るか、DiscordでDMしてください。

感謝:

トレーニングの一部はGoogle TPUを用いて実施され、OpenRoot-Compute により支援されました。

個人:NeuroSenko(コード)、Rimuru(アイデア、議論)、Lord(テスト)、DraconicDragon(修正、テスト)、Remix(ノードコード)

これまでにサポートしてくれた方々にも深く感謝:

多くの匿名の方々、Bakariso、dga、Fi.、ello、K.、LOL2024、NeuroSenko、OpenRoot-Compute、rred、Soviet Cat、Sv1.、T.、TekeshiX

寄付:

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

ライセンス

アダプターモデルはMITライセンスです。

本ツールは、google/t5gemma-2b-2b-ul2およびgoogle/gemma-3-1b-itのオリジナルまたはファインチューニングモデルを使用しています。

Gemmaは、[ai.google.dev/gemma/terms](ai.google.dev/gemma/terms)で見られるGemma利用規約に基づいて提供され、その規約に従います。

このモデルで生成された画像

画像が見つかりません。