Rouwei-16channel

詳細

ファイルをダウンロード

モデル説明

SDXLアーキテクチャを16チャネル潜在空間に実験的に変換

これは、Rouwei-0.8の上に構築された実験的な事前学習モデルで、16チャネル潜在空間に対応し、Flux AEを使用します。

目的:

  • 低計算リソース要件と既存のすべての知識・パフォーマンスを維持しながら、より詳細な描写を実現する
  • 同じ潜在空間を持つFlux/Chroma/Luminaおよび他のモデルとのジョイントサンプリングの可能性

現在の状態:

初期アルファ版であり、まだ未完成です。 画像には余分なノイズや細部のアーティファクトが含まれる可能性があり、その程度は無視できるレベルから顕著なレベルまで様々です。アップスケール、サンプラー/スケジューラ、スタイル、さらにはプロンプト自体も影響を与えます。

ピクセル空間でのGANアップスケールモデルの使用は、潜在空間でのアップスケールよりもはるかに滑らかな結果をもたらします。ベース解像度をさらに上げることも有効です。

現在はイプシロン予測を用いていますが、将来的にはvpredやその他の形式に変換可能です。

使用方法:

ComfyUI

ワークフロー例(またはショーケースの任意の画像を選択)

  1. チェックポイントをダウンロード(FP32およびUNetのみのバージョンはHugging Faceリポジトリで入手可能)
  2. これらのノードをダウンロード(またはComfy Managerで「インストールされていないノードをインストール」を使用)
  3. SDXL 16ch loaderノードを使ってモデルを読み込み、従来のSDXLと同様に使用
  4. Latent multiplyノードを削除しないでください。潜在変数は、通常のSDXL推論と同様に処理前後でスケーリングする必要があります。このステップはまだ隠されていません。

mat1 and mat2 shapes cannot be multiplied (_x16 and 4x3)というエラーが発生した場合:Ksamplerのプレビュー機能を無効にしてください。これは、4チャネル用に設計されたTAESD VAEがプレビューに使用されることが原因です。

その他のUI

主な違いはテンソルの形状、使用するVAE、および潜在変数のスケーリング係数だけであるため、他のUIへの対応は容易に実装可能です。

LoRAアダプター、ControlNet、IP-Adapterなどは未検証です。

ジョイントサンプリング:

このモデルはFlux、Chroma、Lumina-imageなどと同様に16チャネル潜在空間で動作するため、十分なメモリがあれば複雑なワークフローを実装できます。これにより、RouWeiが持つキャラクター、スタイル、コンセプトの知識を、より大きなモデルの性能と組み合わせて活用できます。

ワークフロー例:Fluxからわずか(1~4ステップ)だけ使用して粗い基本構成を生成し、その後その潜在変数を16チャネルSDXLモデルに渡して、初期の高ノイズステップをスキップしてデノイズします。

これは最もシンプルなアプローチです。VAEやアダプターを介して潜在変数を再変換する必要がなく、デノイズの各ステップでモデルを切り替えてもパフォーマンスに影響を与えません。

ただし、移行のたびにLatents multiplyノードを適用することを忘れないでください。

作成方法

基本的には、デフォルトのアーキテクチャに変更は加えていません。入力と出力層を新しいサイズに再初期化し、中央のブロックを段階的にアンフリーズしながらトレーニングを行いました。

デフォルトのSDXL潜在スケール係数 0.13025 はここではうまく機能しないため、このリリースでは 0.6 を使用しています。

これは最適なアプローチではありません。将来的には、モデルの外層に直接使用するのではなく、何らかの変更を加えることで改善が見込まれます。ご意見やアイデアがあれば、ぜひ共有してください。

トレーニング:

(現在のバージョンで)トレーニングするには、UNetの設定で入出力チャネル数を変更し、スケール係数を0.13025から0.6に設定するだけです。VAE部分が正しく動作するかも確認してください。

(コード例は後ほど)

協力・共同作業を希望:

ご意見、提案、要望などを共有するため、Discordサーバーに参加してください。ここに直接メッセージを送るか、DiscordでDMしてください。

感謝:

トレーニングの一部はGoogle TPUを使用し、OpenRoot-Compute によって支援されました。

個人:NeuroSenko

また、これまで支えてくれた仲間たちに心より感謝します。

寄付:

BTC bc1qwv83ggq8rvv07uk6dv4njs0j3yygj3aax4wg6c

ETH/USDT(e) 0x04C8a749F49aE8a56CB84cF0C99CD9E92eDB17db

XMR 47F7JAyKP8tMBtzwxpoZsUVB8wzg2VrbtDKBice9FAS1FikbHEXXPof4PAb42CQ5ch8p8Hs4RvJuzPHDtaVSdQzD6ZbA5TZ

ライセンス:

Illustriousベースと同様のウィルス性ライセンスです。

このモデルで生成された画像

画像が見つかりません。