Qwen 360 Diffusion

详情

模型描述

Qwen 360 Diffusion

概述

Qwen 360 Diffusion 是一个基于 200 亿参数 MMDiT(多模态扩散变换器)模型构建的 128 维 LoRA,专为从文本描述生成 360 度等距柱状投影图像而设计。

该模型在包含数万张等距柱状图像的多样化数据集上,从 Qwen Image 模型 进行训练,图像内容涵盖风景、室内环境、人物、动物和物体。所有图像在训练前均被调整为 2048x1024 像素。

为增强正则化效果,模型还使用了大量普通照片进行训练,使其在正确提示下可实现高度逼真的微调效果。

经过广泛测试,该模型的能力远超当前所有可用的文本到图像(T2I)360 度图像生成模型。因此,只要提供恰当的提示,该模型几乎可以生成您所需的任何内容。

该模型设计用于生成可应用于非 VR 场景的等距柱状图像,例如通用图像、摄影、艺术创作、建筑、肖像及其他多种用途。

训练细节

训练数据集包含 32,000 张独特的 360 度等距柱状图像。每张图像通过水平随机旋转三次进行数据增强(原始图 + 3 次旋转),共生成 128,000 张训练图像。所有 32,000 张原始 360 图像在纳入数据集前均经过人工检查,以排除接缝、极点伪影、错误变形等问题。

为增强正则化,从 pexels-568k-internvl2 数据集中随机选取了 64,000 张图像加入训练集。

训练时间线:3 个月 23 天

首先使用 nf4 量化训练 32 个周期(每个周期包含原始图 + 增强图):

  • qwen-360-diffusion-int4-bf16-v1.safetensors 训练了 28 个周期(1,344,000 步)

  • qwen-360-diffusion-int4-bf16-v1-b.safetensors 训练了 32 个周期(1,536,000 步)

随后继续使用 int8 量化训练 16 个周期(每个周期仍计为原始图 + 增强图):

  • qwen-360-diffusion-int8-bf16-v1.safetensors 总共训练了 48 个周期(2,304,000 步)

使用方法

为激活全景生成,请在提示词中包含以下触发短语之一或其变体:

"equirectangular""360 image""360 panorama""360 degree panorama with equirectangular projection"

请注意,即使在 2D 设备屏幕上使用 360 度查看器,也能营造出置身场景之中的真实感,心理学上称为“临场感”。

推荐设置

  • 宽高比:为获得最佳效果,请使用 2:1 分辨率 2048×1024。使用 1024×5121536×768 或其他 2:1 比例进行文生图生成可能导致模型难以生成正确的地平线。

  • 提示技巧:请明确指定所需的媒介或风格,例如 照片油画插画数字艺术

  • 360 度特定注意事项:请记住,360 图像环绕无边界——左侧边缘与右侧边缘相连,而顶部和底部边缘则汇聚于球体的极点。

  • 人物主体注意事项:对于全身肖像,请明确说明头部/面部及鞋履(如“穿着靴子”)或其缺失情况,以避免生成不完整或变形错误的输出。

  • 等距柱状畸变:输出图像在垂直方向远离中心时会出现水平拉伸。这些畸变在 360 度查看器中观看时不可见。

生成后,您可以将全景图放大用于照片、艺术作品、天空盒、虚拟环境、VR 体验、VR 治疗或 3D 场景背景,或作为文本到视频到 3D 世界流水线的一部分。请注意,该模型同样适用于非 VR 场景的等距柱状图像生成。


注意事项

FP8 推理

使用 FP8 量化时,为获得最高视觉保真度,强烈建议使用 GGUF Q8 或 int8 量化的 Qwen Image 变换器模型版本。

若您使用 fp8_e4m3fnfp8_e5m2 精度的变换器模型,或使用“精度修复”方法(如 ostris/ai-toolkit)训练的低精度模型,与 int8 训练的 LoRA 模型结合时,可能会出现补丁或网格伪影。部分问题源于直接从 fp16 向 fp8 降精度,而未进行适当缩放与校准。→ 为避免此问题,请使用模型的低精度全精度版本
qwen-360-diffusion-int4-bf16-v1.safetensorsqwen-360-diffusion-int4-bf16-v1-b.safetensors

  • 低精度伪影缓解
    若在 fp8_e4m3fnfp8_e5m2 量化的变换器上使用 int4 训练的 LoRA 仍出现伪影,可通过以下方式减轻:

    • 调整 LoRA 权重,并优化正向与负向提示词

额外工具

HTML 360 查看器

为便于查看和分享 360 图像与视频,我开发了一个基于浏览器的本地 HTML 360 查看器,可在桌面和移动浏览器上运行,并支持可选的 VR 头盔。

推荐的 ComfyUI 节点

若您使用 ComfyUI,以下节点可帮助您处理 360 图像与视频。

对于使用 diffusers 及其他库的用户,处理 360 媒体时可使用 pytorch360convert 库。


局限性

训练数据中大部分图像的视角与重力方向呈 90 度,因此可能需要旋转输出以获得不同垂直角度。


贡献者

引用信息

BibTeX

@software{Egan_Qwen_360_Diffusion_2025,
  author = {Egan, Ben and {XWAVE} and {Jimmy Carter}},
  license = {MIT},
  month = dec,
  title = {{Qwen 360 Diffusion}},
  url = {https://huggingface.co/ProGamerGov/qwen-360-diffusion},
  year = {2025}
}

APA

Egan, B., XWAVE, & Jimmy Carter. (2025). Qwen 360 Diffusion [Computer software]. https://huggingface.co/ProGamerGov/qwen-360-diffusion

有关如何引用本数据集的更多信息,请参阅 CITATION.cff


该模型亦可在 HuggingFace 上获取:https://huggingface.co/ProGamerGov/qwen-360-diffusion

此模型生成的图像

未找到图像。