Rouwei-16channel
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
SDXLアーキテクチャを16チャネル潜在空間に実験的に変換
これは、Rouwei-0.8の上に構築された実験的な事前学習モデルで、16チャネル潜在空間に対応し、Flux AEを使用します。
目的:
- 低計算リソース要件と既存のすべての知識・パフォーマンスを維持しながら、より詳細な描写を実現する
- 同じ潜在空間を持つFlux/Chroma/Luminaおよび他のモデルとのジョイントサンプリングの可能性
現在の状態:
初期アルファ版であり、まだ未完成です。 画像には余分なノイズや細部のアーティファクトが含まれる可能性があり、その程度は無視できるレベルから顕著なレベルまで様々です。アップスケール、サンプラー/スケジューラ、スタイル、さらにはプロンプト自体も影響を与えます。
ピクセル空間でのGANアップスケールモデルの使用は、潜在空間でのアップスケールよりもはるかに滑らかな結果をもたらします。ベース解像度をさらに上げることも有効です。
現在はイプシロン予測を用いていますが、将来的にはvpredやその他の形式に変換可能です。
使用方法:
ComfyUI
ワークフロー例(またはショーケースの任意の画像を選択)
- チェックポイントをダウンロード(FP32およびUNetのみのバージョンはHugging Faceリポジトリで入手可能)
- これらのノードをダウンロード(またはComfy Managerで「インストールされていないノードをインストール」を使用)
SDXL 16ch loaderノードを使ってモデルを読み込み、従来のSDXLと同様に使用Latent multiplyノードを削除しないでください。潜在変数は、通常のSDXL推論と同様に処理前後でスケーリングする必要があります。このステップはまだ隠されていません。
mat1 and mat2 shapes cannot be multiplied (_x16 and 4x3)というエラーが発生した場合:Ksamplerのプレビュー機能を無効にしてください。これは、4チャネル用に設計されたTAESD VAEがプレビューに使用されることが原因です。
その他のUI
主な違いはテンソルの形状、使用するVAE、および潜在変数のスケーリング係数だけであるため、他のUIへの対応は容易に実装可能です。
LoRAアダプター、ControlNet、IP-Adapterなどは未検証です。
ジョイントサンプリング:
このモデルはFlux、Chroma、Lumina-imageなどと同様に16チャネル潜在空間で動作するため、十分なメモリがあれば複雑なワークフローを実装できます。これにより、RouWeiが持つキャラクター、スタイル、コンセプトの知識を、より大きなモデルの性能と組み合わせて活用できます。
ワークフロー例:Fluxからわずか(1~4ステップ)だけ使用して粗い基本構成を生成し、その後その潜在変数を16チャネルSDXLモデルに渡して、初期の高ノイズステップをスキップしてデノイズします。
これは最もシンプルなアプローチです。VAEやアダプターを介して潜在変数を再変換する必要がなく、デノイズの各ステップでモデルを切り替えてもパフォーマンスに影響を与えません。
ただし、移行のたびにLatents multiplyノードを適用することを忘れないでください。
作成方法
基本的には、デフォルトのアーキテクチャに変更は加えていません。入力と出力層を新しいサイズに再初期化し、中央のブロックを段階的にアンフリーズしながらトレーニングを行いました。
デフォルトのSDXL潜在スケール係数 0.13025 はここではうまく機能しないため、このリリースでは 0.6 を使用しています。
これは最適なアプローチではありません。将来的には、モデルの外層に直接使用するのではなく、何らかの変更を加えることで改善が見込まれます。ご意見やアイデアがあれば、ぜひ共有してください。
トレーニング:
(現在のバージョンで)トレーニングするには、UNetの設定で入出力チャネル数を変更し、スケール係数を0.13025から0.6に設定するだけです。VAE部分が正しく動作するかも確認してください。
(コード例は後ほど)
協力・共同作業を希望:
ご意見、提案、要望などを共有するため、Discordサーバーに参加してください。ここに直接メッセージを送るか、DiscordでDMしてください。
感謝:
トレーニングの一部はGoogle TPUを使用し、OpenRoot-Compute によって支援されました。
個人:NeuroSenko
また、これまで支えてくれた仲間たちに心より感謝します。
寄付:
BTC bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c
ETH/USDT(e) 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db
XMR 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ
ライセンス:
Illustriousベースと同様のウィルス性ライセンスです。













