Qwen 360 Diffusion

詳細

ファイルをダウンロード

モデル説明

Qwen 360 Diffusion

概要

Qwen 360 Diffusion は、20B パラメータの MMDiT(マルチモーダル・ディフュージョン・トランスフォーマー)モデルを基盤とし、テキスト記述から360度等角円筒投影画像を生成するために設計されたランク128のLoRAです。

このモデルは、Qwen Image モデルを基に、数万点に及ぶ等角円筒投影画像(風景、室内、人物、動物、物体など)から構成される極めて多様なデータセットで学習されました。すべての画像は学習前に2048×1024にリサイズされています。

また、正則化のために通常の写真の多様なデータセットも用いて学習され、適切なプロンプトを入力した場合、このモデルは現実主義的な微調整モデルとして機能します。

広範なテストに基づき、このモデルの能力は、現在利用可能な他のすべてのT2I 360画像生成モデルを大幅に上回っています。したがって、適切なプロンプトを与えれば、このモデルはほぼあらゆる画像を生成できる可能性があります。

このモデルは、VR以外の用途(一般画像、写真、アート、建築、肖像画など)にも使用できる等角円筒投影画像の生成を目的として設計されています。

学習詳細

最初の学習はnf4で8エポック実行されました。

  • qwen-360-diffusion-int4-bf16-v1.safetensors は7エポック学習されました。
  • qwen-360-diffusion-int4-bf16-v1-b.safetensors は8エポック学習されました。

その後、int8でさらに4エポック学習が継続されました。

  • qwen-360-diffusion-int8-bf16-v1.safetensors は合計12エポック学習されました。

360度学習画像の各画像は、データ拡張のために水平方向にランダムに3回回転させました(元画像+3回の回転)。

正則化のため、pexels-568k-internvl2 データセットから64,000枚の画像がランダムに選択されました。


使用方法

パノラマ生成を有効にするには、プロンプトに以下のトリガー句のいずれか、またはそのバリエーションを含めてください:

"equirectangular""360 image""360 panorama"、または"360 degree panorama with equirectangular projection"

2Dデバイスの画面で360ビューアを使用しても、心理学における「存在感(presence)」と呼ばれる、実際にそのシーンの中にいるような感覚を得ることができます。

推奨設定

  • アスペクト比: 最良の結果を得るには、2:1の解像度2048×1024を使用してください。1024×5121536×768などの他の2:1アスペクト比を使用すると、モデルが適切な地平線を生成できなくなる可能性があります。
  • プロンプトのヒント: _写真__油絵__イラスト__デジタルアート_などの希望する媒体またはスタイルを明確に含めてください。
  • 360度特有の考慮点: 360度画像は境界がなく、左右の端がつながり、上下の端は球体の極で1点に収束することを忘れないでください。
  • 人物の撮影に関する考慮点: 全身撮影の場合は、頭部/顔や靴(例:「ブーツを履いている」)の有無を明確に指定し、不完全または歪んだ出力を避けてください。
  • 等角円筒投影の歪み: 出力画像では、中心から垂直方向に離れるほど水平方向の引き伸ばしが増加します。ただし、360ビューアで表示する際にはこの歪みは見えません。

生成後、これらのパノラマを写真アートスカイボックス仮想環境VR体験VR療法、または3Dシーンの背景として使用できます。また、テキスト→動画→3Dワールドのパイプラインの一部としても活用できます。このモデルは、VR以外の用途向けの等角円筒投影画像の生成にも設計されています。


注意事項

FP8推論

FP8量子化を使用する場合、最大の視覚的忠実度を得るため、強く推奨するのは、GGUF Q8またはint8量子化されたQwen Imageトランスフォーマーモデルです。

fp8_e4m3fnまたはfp8_e5m2精度のトランスフォーマーモデル、または「精度補正」手法(例:ostris/ai-toolkit)で学習された低精度モデルを使用すると、int8で学習されたLoRAモデルと組み合わせた際にパッチまたはグリッドアーチファクトが発生する可能性があります。一部のケースでは、fp16からfp8への直接のキャスト(適切なスケーリングやキャリブレーションなし)が原因であるとされています。→ これを回避するには、低精度のフルプレシジョン版を使用してください:
qwen-360-diffusion-int4-bf16-v1.safetensors または qwen-360-diffusion-int4-bf16-v1-b.safetensors

  • 低精度アーチファクトの軽減
    fp8_e4m3fnまたはfp8_e5m2量子化されたトランスフォーマー上でint4学習LoRAを使用した際にアーチファクトが残る場合、以下の方法で軽減できることがあります:

    • LoRAウェイトを調整する
    • ポジティブおよびネガティブプロンプトを精緻化する

追加ツール

HTML 360ビューア

360画像・動画の表示・共有を容易にするため、デバイス上でローカルに動作するWebブラウザベースのHTML 360ビューアを構築しました。デスクトップおよびモバイルブラウザで動作し、VRヘッドセットのサポートもオプションで提供しています。

推奨ComfyUIノード

ComfyUIを使用している場合、以下のノードセットが360画像・動画の処理に役立ちます。

diffusersやその他のライブラリを使用している場合、360メディアの処理にpytorch360convertライブラリをご活用ください。


制限事項

学習データの大部分は、重力方向に対して視点が90度に設定されているため、異なる垂直角度を得るには出力の回転が必要になる場合があります。


貢献者


引用情報

BibTeX

@software{Egan_Qwen_360_Diffusion_2025,
  author = {Egan, Ben and {XWAVE} and {Jimmy Carter}},
  license = {MIT},
  month = dec,
  title = {{Qwen 360 Diffusion}},
  url = {https://huggingface.co/ProGamerGov/qwen-360-diffusion},
  year = {2025}
}

APA

Egan, B., XWAVE, & Jimmy Carter. (2025). Qwen 360 Diffusion [Computer software]. https://huggingface.co/ProGamerGov/qwen-360-diffusion

このデータセットの引用方法については、CITATION.cffをご参照ください。


このモデルはHuggingFaceでも利用できます:https://huggingface.co/ProGamerGov/qwen-360-diffusion

このモデルで生成された画像

画像が見つかりません。