Flux Equirectangular 360° Panorama
详情
下载文件
关于此版本
模型描述
这是一个专为 FLUX.1 Dev 设计的 LoRA,旨在提升等距柱状投影的 360 度全景图的质量,这些图像可在 VR 中作为沉浸式环境查看,或用作天空盒。
更新后的示例工作流程及更多说明请见:/model/745010?modelVersionId=833115
信息
触发词为 "equirectangular 360 degree panorama"。请避免使用 "spherical projection",因为这通常会导致非等距柱状的球形图像。图像分辨率应始终为 2:1 的宽高比,1024 x 512 或 1408 x 704 效果很好,且为训练数据所用。2048 x 1024 也适用。建议使用 0.5 - 1.5 的权重。如果生成的图像过于平坦,缺乏必要的球面畸变,请尝试将权重提高到 1 以上,但这可能会对图像的细节产生负面影响。对于 Flux 引导,我建议在真实场景中使用约 2.5 的值。
这是一个可在浏览器中查看球形图像的工具:https://renderstuff.com/tools/360-panorama-web-viewer/
要在支持交互模式的网站上使图像可交互查看,可使用 exiftool(Windows 系统)添加等距柱状投影元数据,命令如下:
path\to\exiftool.exe -XMP:ProjectionType="equirectangular" image.png
Civitai 何时会原生支持 VR? :)
如果你拥有 VR 系统,你可以在多种 VR 媒体播放器(如 SteamVR Media Player、Deo VR 等)中将等距柱状图像作为沉浸式环境观看。
你还可以结合深度图使用立体图像节点,生成具有 4:1 宽高比的立体全景图,以便在 VR 中观看,使物体的实际距离由深度图决定。我使用标准的 MiDaS 深度图,并在立体图像节点中采用 polylines_sharp 填充技术,取得了不错的效果。其他深度图方法或许能提供更佳结果,但我尚不清楚是否有专为等距柱状全景图设计的深度模型。
与其他 LoRA 的兼容性似乎良好,尽管我尚未测试很多。如果希望加快生成速度(约 8-10 步而非 20-30 步),它与 dev-to-schnell LoRA 配合效果非常好,但代价是纹理会略失真实感,变得更卡通化。
该模型的秩为 32,在 128 张训练图像(共 3072 步)上训练了 24 个 epoch。此时模型似乎已收敛于理解等距柱状格式,进一步训练并未带来明显提升。对于文本描述,我使用了由 JoyCaption 生成的详细说明,并辅以少量人工编辑,以及关于等距柱状投影结构的基本信息。训练使用了 AI Toolkit。
局限性
该模型未能完全解决接缝问题。由于 Flux 是一个 Transformer 模型,我们无法像在卷积模型中那样通过巧妙的填充技巧使用非对称分块采样。但另一方面,由于 Flux 是 Transformer 模型,它能够自然地实现长程注意力,从而关联图像的两侧,这种注意力是可以被训练的。
然而,该模型在大多数情况下显著改善了接缝问题,以至于在对图像应用圆形平移后,仅需对缝合处进行修补,通常即可解决——前提是接缝两侧的物体并非完全不兼容。我已提供了一个修复此接缝问题的示例工作流程。
由于大部分训练数据为风景全景图,该模型在处理这些场景时表现极佳(而基础 Flux 模型在此类场景中表现也不差)。然而,室内场景在训练数据中占比极少,因此在生成室内场景时,比例常严重失真:物体显得过大,房间墙壁数量错误,人脸扭曲等。我希望将来能用更均衡的场景数据重新训练。
致谢
该 LoRA 使用了网络上免费提供的等距柱状图像进行训练,主要来源于 Flickr 的等距柱状全景图群组,因为这些图片质量高且无水印。我使用了以下用户的作品:j.nagel、Kevin Jennings、Uwe Dörnbrack、Cristian Marchi、Patricia Müller、Tiger Lin Panowork 和 Faillace。感谢他们出色的摄影作品,使本项目成为可能。不过,该模型生成的图像中几乎不可能出现与训练集高度相似的画面,因为这些图像仅作为示例,用于展示球面镜头畸变如何影响图像。
由于本模型基于 FLUX.1 Dev 构建,使用该模型生成的图像仍须遵守 FLUX.1 Dev 非商业许可协议。




















