Qwen 360 Diffusion
详情
下载文件
模型描述
Qwen 360 Diffusion
概述
Qwen 360 Diffusion 是一个基于 200 亿参数 MMDiT(多模态扩散变换器)模型构建的 128 维 LoRA,专为从文本描述生成 360 度等距柱状投影图像而设计。
该模型在包含数万张等距柱状图像的多样化数据集上,从 Qwen Image 模型 进行训练,图像内容涵盖风景、室内环境、人物、动物和物体。所有图像在训练前均被调整为 2048x1024 像素。
为增强正则化效果,模型还使用了大量普通照片进行训练,使其在正确提示下可实现高度逼真的微调效果。
经过广泛测试,该模型的能力远超当前所有可用的文本到图像(T2I)360 度图像生成模型。因此,只要提供恰当的提示,该模型几乎可以生成您所需的任何内容。
该模型设计用于生成可应用于非 VR 场景的等距柱状图像,例如通用图像、摄影、艺术创作、建筑、肖像及其他多种用途。
训练细节
训练数据集包含 32,000 张独特的 360 度等距柱状图像。每张图像通过水平随机旋转三次进行数据增强(原始图 + 3 次旋转),共生成 128,000 张训练图像。所有 32,000 张原始 360 图像在纳入数据集前均经过人工检查,以排除接缝、极点伪影、错误变形等问题。
为增强正则化,从 pexels-568k-internvl2 数据集中随机选取了 64,000 张图像加入训练集。
训练时间线:3 个月 23 天
首先使用 nf4 量化训练 32 个周期(每个周期包含原始图 + 增强图):
qwen-360-diffusion-int4-bf16-v1.safetensors训练了 28 个周期(1,344,000 步)qwen-360-diffusion-int4-bf16-v1-b.safetensors训练了 32 个周期(1,536,000 步)
随后继续使用 int8 量化训练 16 个周期(每个周期仍计为原始图 + 增强图):
qwen-360-diffusion-int8-bf16-v1.safetensors总共训练了 48 个周期(2,304,000 步)
使用方法
为激活全景生成,请在提示词中包含以下触发短语之一或其变体:
"equirectangular"、"360 image"、"360 panorama" 或 "360 degree panorama with equirectangular projection"
请注意,即使在 2D 设备屏幕上使用 360 度查看器,也能营造出置身场景之中的真实感,心理学上称为“临场感”。
推荐设置
宽高比:为获得最佳效果,请使用
2:1分辨率2048×1024。使用1024×512、1536×768或其他2:1比例进行文生图生成可能导致模型难以生成正确的地平线。提示技巧:请明确指定所需的媒介或风格,例如 照片、油画、插画 或 数字艺术。
360 度特定注意事项:请记住,360 图像环绕无边界——左侧边缘与右侧边缘相连,而顶部和底部边缘则汇聚于球体的极点。
人物主体注意事项:对于全身肖像,请明确说明头部/面部及鞋履(如“穿着靴子”)或其缺失情况,以避免生成不完整或变形错误的输出。
等距柱状畸变:输出图像在垂直方向远离中心时会出现水平拉伸。这些畸变在 360 度查看器中观看时不可见。
生成后,您可以将全景图放大用于照片、艺术作品、天空盒、虚拟环境、VR 体验、VR 治疗或 3D 场景背景,或作为文本到视频到 3D 世界流水线的一部分。请注意,该模型同样适用于非 VR 场景的等距柱状图像生成。
注意事项
FP8 推理
使用 FP8 量化时,为获得最高视觉保真度,强烈建议使用 GGUF Q8 或 int8 量化的 Qwen Image 变换器模型版本。
若您使用 fp8_e4m3fn 或 fp8_e5m2 精度的变换器模型,或使用“精度修复”方法(如 ostris/ai-toolkit)训练的低精度模型,与 int8 训练的 LoRA 模型结合时,可能会出现补丁或网格伪影。部分问题源于直接从 fp16 向 fp8 降精度,而未进行适当缩放与校准。→ 为避免此问题,请使用模型的低精度全精度版本:qwen-360-diffusion-int4-bf16-v1.safetensors 或 qwen-360-diffusion-int4-bf16-v1-b.safetensors。
低精度伪影缓解
若在fp8_e4m3fn或fp8_e5m2量化的变换器上使用 int4 训练的 LoRA 仍出现伪影,可通过以下方式减轻:- 调整 LoRA 权重,并优化正向与负向提示词。
额外工具
HTML 360 查看器
为便于查看和分享 360 图像与视频,我开发了一个基于浏览器的本地 HTML 360 查看器,可在桌面和移动浏览器上运行,并支持可选的 VR 头盔。
您可在 GitHub Pages 上试用:https://progamergov.github.io/html-360-viewer/
您可在 URL 后附加
?url=加上图像链接,即可自动加载至 360 查看器,极大简化了 360 内容的分享流程。
推荐的 ComfyUI 节点
若您使用 ComfyUI,以下节点可帮助您处理 360 图像与视频。
ComfyUI_preview360panorama
用于在 ComfyUI 内预览 360 图像(可能比我的网页查看器更慢)。
链接:https://github.com/ProGamerGov/ComfyUI_preview360panorama
ComfyUI_pytorch360convert
用于编辑 360 图像、修复接缝、旋转视图、遮罩潜在伪影。
ComfyUI_pytorch360convert_video
用于生成围绕场景旋转的扫掠视频。
链接:https://github.com/ProGamerGov/ComfyUI_pytorch360convert_video
对于使用 diffusers 及其他库的用户,处理 360 媒体时可使用 pytorch360convert 库。
局限性
训练数据中大部分图像的视角与重力方向呈 90 度,因此可能需要旋转输出以获得不同垂直角度。
贡献者
引用信息
BibTeX
@software{Egan_Qwen_360_Diffusion_2025,
author = {Egan, Ben and {XWAVE} and {Jimmy Carter}},
license = {MIT},
month = dec,
title = {{Qwen 360 Diffusion}},
url = {https://huggingface.co/ProGamerGov/qwen-360-diffusion},
year = {2025}
}
APA
Egan, B., XWAVE, & Jimmy Carter. (2025). Qwen 360 Diffusion [Computer software]. https://huggingface.co/ProGamerGov/qwen-360-diffusion
有关如何引用本数据集的更多信息,请参阅 CITATION.cff。
该模型亦可在 HuggingFace 上获取:https://huggingface.co/ProGamerGov/qwen-360-diffusion





















