RouWei

詳細

ファイルをダウンロード

モデル説明

Illustrious の深層再学習により、プロンプトの忠実度、知識、最先端のパフォーマンスを最大限に引き出します。

大きな夢は叶う

バージョン番号は計画された学習の分数ではなく、現在の最終リリースのインデックスです。

HF リポジトリ

GPU クラスタを使用した大規模なファインチューニング。約1300万枚の画像(そのうち約400万枚は自然言語キャプション付き)を使用

  • キャラクター、概念、スタイル、文化および関連事項に関する新鮮で豊富な知識
  • リリース時のSDXLアニメモデルの中で最も優れたプロンプト忠実度
  • Illustrious、NoobAi およびその他のチェックポイントで一般的に見られたタグの滲みとバイアスの主要な問題を解決
  • 汎用的な幅広いスタイルにわたる優れた審美性と知識(5万以上ものアーティスト)、プライベートギャラリーからの数百年にわたる独自に選別されたデータセット(アーティスト自身から提供されたものも含む))
  • 安定性を犠牲にすることなく高い柔軟性と多様性
  • クリーンなデータセットのおかげで、人気のあるスタイルにおけるうっとうしいウォーターマークが不再現
  • 燃え焦げの痕跡なく、イプシロンを使用してもフルレンジの鮮やかな色と滑らかなグラデーション
  • 第三者製チェックポイント、LoRA、チューカーなどを一切使用せず、Illustrious v0.1 から純粋に学習

以前のバージョンと比較していくつかの問題や変更点があります。必ず README をお読みください。

データセットのカットオフ:2025年4月末

機能とプロンプティング:

重要な変更:

アーティストスタイルをプロンプトする際、特に複数のスタイルを混ぜる場合、それらのタグは必ず別個のCLIPチャンクに配置する必要があります。A1111およびその派生版では、そのあとに BREAK を追加してください(Comfyではコンディショニング結合ノードを使用)、少なくともプロンプトの最下部に配置してください。それ以外の場合、出力の大幅な劣化が発生する可能性があります。

基本:

このチェックポイントは、短くシンプルなプロンプトでも、長く複雑なプロンプトでも動作します。しかし、矛盾するまたは奇妙な要素がある場合、他のモデルとは異なり、それらは無視されず出力に影響を与えます。ガイドレールも安全装置も、ロボトミーもありません。

見たいものをそのままプロンプトし、画像に不要なものはプロンプトしないでください。上からの視点を望むなら、天井をポジティブに含めないでください。頭がフレーム外に切り取られたクロップビューを望むなら、キャラクターの顔の詳細な描写を避けてください。シンプルですが、時々見落とされがちです。

バージョン0.8は自然言語プロンプトに対する高度な理解を備えています。これは自然言語を使用しなければならないという意味ではなく、タグのみでも完全に問題ありません。特にタグの組み合わせの理解も向上しているためです。

Flux やT5またはLLMテキストエンコーダーをベースにした他のモデルのように動作すると期待しないでください。SDXLチェックポイント全体のサイズは、そのテキストエンコーダー単体よりも小さい上に、ベースとなるIllustrious-v0.1は、ヴァニラSDXL-baseから多くの一般知識を忘れています。

しかし、現在の状態でも、他では外部ガイドなしでは実現不可能な新しいことを可能にし、手動編集やインペインティングなどをより便利にします。

最高のパフォーマンスを得るには、CLIPチャンクの管理を継続してください。SDXLでは、プロンプトは75トークン(BOSとEOSを含むと77トークン)のチャンクに分割され、それぞれがCLIPによって個別に処理され、その後連結されてUNetへの条件として渡されます。

キャラクターやオブジェクトの特定の特徴を指定し、他のプロンプト部分と分離したい場合、それらを同じチャンクに収め、必要に応じて BREAK で区切ってください。これは特徴の混同問題を完全に解決するわけではありませんが、テキストエンコーダーがRouWeiでは全体のシーケンスを個々の概念より優れて処理できるため、全体的な理解を向上させることができます。

データセットにはBooruスタイルのタグと自然言語表現のみが含まれています。フューリー、リアル写真、西洋メディアなども含まれていますが、異なるシステムの混在による問題を回避するために、すべてのキャプションはクラシックなBooruスタイルに変換されています。そのため、e621タグは正しく理解されません。

サンプリングパラメータ:

  • txt2img用:約1メガピクセル、32の倍数の任意のアスペクト比(1024x1024、1056x、1152x、1216x832...)。Euler_a、20〜28ステップ。
  • CFG:イプシロン版では4〜9(最適は7)、vpred版では3〜5
  • シグマ倍率を調整すると多少の改善が見られる可能性があります。CFG++サンプラーは正常に動作します。LCM/PCM/DMD/... および珍しいサンプラーは未検証。
  • 一部のスケジューラーは動作不良です。
  • Highresfix:x1.5潜在変数 + denoise 0.6 または任意のGaN + denoise 0.3〜0.55。
  • vpred版ではCFGを3〜5に下げることが必要です!

vpred版ではCFGを3〜5に下げることが必要です!

品質分類:

品質タグは4つだけ:

masterpiece, best quality

ポジティブ、および

low quality, worst quality

ネガティブ。

他には何も不要です。実際、ポジティブは省略してもよく、ネガティブは low quality のみに減らすことも可能です。これらは基本スタイルや構成に影響を与える可能性があるためです。

lowres などのメタタグは削除され、効果がありません。使用しない方が良いです。低解像度画像は削除または重要度に応じてDATでアップスケール・クリーニングされています。

ネガティブプロンプト:

worst quality, low quality, watermark

これだけです。「rusty trombone」や「farting on prey」などの不要なタグは不要です。グレースケールやモノクロームをネガティブに含めるのは、意図を理解している場合に限り行ってください。明るさ/色/コントラストの追加タグは以下をご参照ください。

アーティストスタイル:

例のグリッド一覧/ワイルドカード(「トレーニングデータ」にも同様に存在)

「by」を伴って使用する必要があります。これなしでは正しく動作しません。

「by」はスタイルのメタトークンであり、類似または近い名前のタグやキャラクターとの混同・誤解を避けるために使用されます。これにより、スタイルの結果が向上し、他のチェックポイントで見られるようなランダムなスタイルの変動を回避できます。

複数のスタイルを組み合わせると非常に興味深い結果が得られ、プロンプトの重みやスペルで制御できます。

アーティスト/スタイルタグの後には必ず BREAK を追加してください(A1111用)、またはコンディショニング結合(Comfy用)を使用してください、またはプロンプトの最下部に配置してください。

例:

by kantoku, by wlop, best quality, masterpiece BREAK 1girl, ...

一般的なスタイル:

2.5d, anime screencap, bold line, sketch, cgi, digital painting, flat colors, smooth shading, minimalistic, ink style, oil style, pastel style

Booruタグスタイル:

1950s (style), 1960s (style), 1970s (style), 1980s (style), 1990s (style), 2000s (style), animification, art nouveau, pinup (style), toon (style), western comics (style), nihonga, shikishi, minimalism, fine art parody

およびこのグループのすべてのスタイル。

組み合わせ(アーティストと同様)で使用可能、重み付け可能、ポジティブとネガティブ両方で使用可。

キャラクター:

Booruタグのフルネームと正しいフォーマットを使用してください。例:karin_(blue_archive)karin \(blue archive\)、より正確な再現のために皮膚タグも使用してください。例:karin \(bunny\) \(blue archive\)。オートコンプリート拡張機能が非常に役立ちます。

多くのキャラクターはBooruタグだけで認識されますが、基本的な特徴を説明するとより正確になります。これにより、基本的な特徴のリークに苦しむことなく、プロンプトだけであなたのワイフ/ハズバンドを簡単に衣装変更できます。

自然言語:

Booruタグと組み合わせて使用すると優れた結果が得られます。スタイルと品質タグを入力した後にのみ自然言語を使用してください。Booruタグのみを使用し、自然言語を無視しても構いません。最適なパフォーマンスを得るためには、CLIP 75トークンチャンクの管理を続けてください。

データセットの約400万枚の画像には、Claude、GPT、Gemini、ToriiGateによって作成されたハイブリッド自然言語キャプションが含まれており、その後、さまざまなバリエーションで洗練・クリーニングされ、タグと組み合わされました。

通常のキャプションとは異なり、これらにはキャラクター名が含まれており非常に有用です。シンプルで短く、わかりやすい説明が最適です。長く不正確な以下の例のような文章は避けてください

A mysteriously enchanting feminine entity of indeterminate yet youthful essence, whose celestial visage radiates with the ethereal luminescence of a thousand dying stars, blessed with locks cascading like the golden rivers of ancient mythology, perhaps styled in a manner reminiscent of contemporary fashion trends though not necessarily adhering to any specific aesthetic paradigm. Her eyes, pools of unfathomable depth and hue, sparkle with the wisdom of millennia yet maintain an innocent quality that defies temporal constraints...

キャプションにはToriiGateのショートモードを使用できます。

Fluxや他のモデルと同等の性能を期待しないでください。このモデルは非常に努力しており、数回試すことで大抵目的の結果を得られますが、それほど安定しておらず、細部まで正確ではありません。

尾・耳関連の概念が多数:

ああ、そうですね。

tail censor, holding own tail, hugging own tail, holding another's tail, tail grab, tail raised, tail down, ears down, hand on own ear, tail around own leg, tail around penis, tailjob, tail through clothes, tail under clothes, lifted by tail, tail biting, tail penetration (including a specific indication of vaginal/anal), tail masturbation, holding with tail, panties on tail, bra on tail, tail focus, presenting own tail...

(Booruの意味、e621ではなく)そして自然言語による多数のその他の概念。大部分は完璧に動作しますが、一部は多くの試行が必要です。

明るさ/色/コントラスト:

これらを制御するための追加メタタグを使用できます:

low brightness, high brightness, low saturation, high saturation, low gamma, high gamma, sharp colors, soft colors, hdr, sdr

これらはイプシロン版とvpred版の両方で動作し、非常に優れた結果をもたらします。

イプシロン版はそれらのメタタグにあまりにも依存しています。low brightnesslow gamma または負の範囲(ネガティブ)を使用しないと、真の0,0,0ブラックを得るのが困難な場合があります。白についても同様です。

イプシロン版とvpred版の両方とも、真のzsnr、完全な色と明るさのレンジを備えており、一般的な欠陥は見られません。ただし、動作が異なりますので、試してみてください。

vpred版

知っておくべき主な点:CFGを7から5(またはそれ以下)に下げることです。それ以外の使用方法はほぼ同様で、利点があります。

v0.7以降、vpred版は完全に安定しているようです。NAIのように75トークンチャンクの境界近くのタグを無視する問題は発生しません。焼き付き画像を得るのは難しくなります—CFG7でも通常は単に過飽和になり、滑らかなグラデーションが得られ、これは一部のスタイルに有用です。はい、(0,0,0)から(255,255,255)のすべてを生成できます。上記の明るさメタタグは、より簡単/楽なプロンプティングに非常に役立ちます。自然言語表現も効果的です。最も暗い画像を得るには、ネガティブにhigh brightnessを指定し、またはlow brightness, low gammaタグを使用してください。明るい肌を暗い背景にしたくない、またはコントラストを低くしたい(または逆に強調したい)場合は、hdr/sdrをネガティブ/ポジティブに使用してください。

まれに特定のプロンプトでコントラストが低下するという報告があります。他のvpredモデルでも同様の動作が見られるようです。75トークンチャンクの境界に「セパレーター」を近づけることでこの問題を修正できます。しかし、v0.7では私は個人的にこの問題に遭遇していません。

vpred版を実行するには、A1111の開発版、Comfy(特別なローダーノード付き)、ForgeまたはReforgeが必要です。イプシロン版と同じパラメータ(Euler a、CFG 3〜5、20〜28ステップ)を使用してください。CFGリスケールは不要ですが、試すこともできます。CFG++は非常に優れた結果を出します。

ベースモデル:

このモデルは主要な学習後、小さなディテールの改善、解像度の向上などを目的としてUNetを微調整しています。ただし、RouWei-Baseにもご注目ください。これは、小さなディテールにわずかな誤りがあるものの、複雑なプロンプトではより優れたパフォーマンスを発揮することがあります。また、FP32バージョンも提供されており、ComfyでFP32テキストエンコーダーノードを使用したい場合、マージやファインチューニングに適しています。

Huggingfaceリポジトリ で入手できます。

知られている問題:

もちろんいくつかあります:

  • アーティストおよびスタイルタグは、メインプロンプトとは別のチャンクに分離するか、プロンプトの最後に配置する必要があります。
  • まれに位置的または組み合わせ的なバイアスが発生する可能性がありますが、現時点では明確ではありません。
  • 一部の一般的なスタイルについて不満の声があります。
  • イプシロン版は明るさメタタグに過度に依存しており、目的の明るさシフトを得るために使用する必要がある場合があります。
  • 新しく追加された一部のスタイル/キャラクターは、期待されるほど優れていない、または明確でない場合があります。
  • 未発見の問題あり

将来のモデルへのアーティスト/キャラクターのリクエストは随時受け付けています。弱い、不正確、または強いウォーターマークを持つアーティスト/キャラクター/概念を見つけた場合は、ご報告ください。明示的に追加します。新バージョンをご覧ください。

Discordサーバーに参加する

ライセンス:

Illustriousと同様です。マージ、ファインチューニングなど自由に使用できますが、リンクまたは言及を残すことが必須です。

どのように作られたか

後で報告書やその他の資料を作成する予定です。確実に。

要するに、作業の98%はデータセットの準備に関係しています。NAI論文で提案されたタグ頻度に基づく損失重み付けに盲目的に頼るのではなく、非同期コライターを用いたバランス調整とカスタムガイド付き損失重み付けを実装しました。ノイズスケジューラーの拡張により、Ztsnr(またはそれに近い値)とイプシロン予測を達成しました。

消費した計算リソース:H100で8,000時間以上(研究や失敗試行を除く)

感謝:

まず、オープンソースを支援し、コードを開発・改善してくださったすべての方々に感謝します。Illustriousの作者がモデルを公開してくださったことに感謝します。NoobAIチームは、このような規模でのオープンファインチューニングの先駆者として、経験を共有し、これまで見過ごされてきた課題を提起・解決してくださったことに深く感謝します。

個人的な謝辞:

アーティストたちは、プライベートな作品を共有してくださったため、匿名を希望しています。また、いくつかの匿名の方々が寄付、コード、キャプションなどを提供してくださいました。Soviet Cat - GPUの支援;Sv1. - LLMアクセス、キャプション作成、コード;K. - 学習コード;Bakariso - データセット、テスト、アドバイス、内情提供;NeuroSenko - 寄付、テスト、コード;LOL2024 - 数多くのユニークなデータセット;T.,[] - データセット、テスト、アドバイス;rred, dga, Fi., ello - 寄付;TekeshiX - データセット。その他多くの助けをくださった仲間たち。本当にありがとう ❤️。

また、フィードバックやリクエストをくださったすべての方々にも感謝します。それは非常に貴重です。

もし名前を忘れてしまった方がいらっしゃいましたら、ぜひお知らせください。

寄付について

支援していただきたい場合:私のモデルをシェアしてくださったり、フィードバックを残してくださったり、ケモミミ娘の可愛いイラストを描いていただけたら幸いです。もちろん、オリジナルアーティストを応援してください。

AIは私の趣味であり、私は自費でこれを続けており、寄付を乞うつもりはありません。しかし、これは大規模で高額なプロジェクトになってしまいました。新しい学習や研究を加速させるために、ご支援をお願いします。

(ただし、このお金がアルコールやコスプレ女子に使われてしまう可能性もあることをご了承ください)

BTC: bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e): 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR: 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

GPU時間(A100以上)をご提供いただける場合は、DMでお知らせください。

このモデルで生成された画像

画像が見つかりません。