Flux Equirectangular 360° Panorama

세부 정보

모델 설명

이것은 FLUX.1 Dev용 LoRA로, VR에서 몰입형 환경으로 시청하거나 스키박스로 사용할 수 있는 등각도 360도 파노라마의 품질을 향상시키는 것을 목표로 합니다.

자세한 노트가 추가된 업데이트된 예제 워크플로우는 여기에서 확인하세요: /model/745010?modelVersionId=833115

정보

트리거 문구는 "equirectangular 360 degree panorama"입니다. "구면 투영"이라는 표현은 구면 이미지가 등각도가 아닌 경우가 많기 때문에 피하는 것이 좋습니다. 이미지 해상도는 항상 2:1의 비율이어야 합니다. 1024 x 512 또는 1408 x 704는 훈련 데이터에 사용되었으며 매우 잘 작동합니다. 2048 x 1024도 작동합니다. 권장 가중치는 0.5 - 1.5입니다. 이미지가 필요한 구면 왜곡이 없이 너무 평평하게 생성되는 문제가 있다면, 가중치를 1보다 높게 설정해 보세요. 다만, 이는 이미지의 작은 세부 사항에 부정적인 영향을 줄 수 있습니다. Flux 가이던스에는 사실적인 장면에 대해 약 2.5의 값을 권장합니다.

이 도구를 사용하면 브라우저에서 구면 이미지를 시청할 수 있습니다: https://renderstuff.com/tools/360-panorama-web-viewer/
웹사이트에서 인터랙티브 모드로 이미지를 시청하려면, exiftool(Windows용)을 사용하여 다음과 같은 명령어로 equirectangular 투영 메타데이터를 추가할 수 있습니다:
path\to\exiftool.exe -XMP:ProjectionType="equirectangular" image.png

Civitai에서 VR 네이티브 지원은 언제 될까요? :)

VR 시스템이 있다면, SteamVR Media Player, Deo VR 등 다양한 VR 미디어 플레이어에서 등각도 이미지를 몰입형 환경으로 시청할 수 있습니다.

스테레오 이미지 노드와 깊이 맵을 사용하여 스테레오 파노라마 이미지(4:1 비율)를 생성할 수도 있습니다. 이 이미지는 VR에서 시청할 때 깊이 맵에 따라 물체의 거리가 실제처럼 보입니다. 표준 MiDaS 깊이 맵과 스테레오 이미지 노드의 polylines_sharp 필링 기법을 사용하여 좋은 결과를 얻었습니다. 다른 깊이 맵 방식이 더 나은 결과를 제공할 수도 있으며, 등각도 파노라마에 특화된 깊이 모델이 있는지는 잘 모르겠습니다.

다른 LoRA들과의 호환성은 꽤 좋습니다. 그러나 많은 LoRA를 테스트하지는 않았습니다. 빠른 생성 시간(20-30단계 대신 약 8-10단계)을 원한다면, dev-to-schnell LoRA와 매우 잘 작동합니다. 다만, 텍스처가 다소 사실적이지 않고 만화풍이 될 수 있습니다.

이 모델은 랭크 32이며, 128개의 훈련 이미지(3072단계)를 사용해 24에포크 동안 훈련되었습니다. 이 시점에서 모델은 등각도 형식을 이해하는 데 수렴했으며, 추가 훈련은 큰 도움이 되지 않았습니다. 캡션에는 JoyCaption으로 생성된 상세한 캡션을 약간 수동으로 편집하고, 등각도 투영의 구조에 대한 기본 정보를 추가했습니다. AI Toolkit을 사용해 훈련했습니다.

제한 사항

이 모델은 완전히 이음새 문제를 해결하지는 못합니다. Flux는 변환기 모델이기 때문에, 합성곱 모델처럼 비대칭 타일 샘플링과 지능적인 패딩 트릭을 사용할 수 없습니다. 반면, Flux는 변환기 모델이므로 이미지의 반대쪽을 자연스럽게 연관짓는 장거리 어텐션 기능을 제공하며, 이 어텐션은 학습될 수 있습니다.

그러나 이 모델은 대부분의 경우 이음새를 크게 개선하여, 이미지에 원형 이동을 적용한 후 이음새를 inpainting으로 수습하는 것으로 충분히 해결할 수 있습니다. 이음새 양쪽의 물체가 완전히 불일치하지 않는 경우에요. 이 이음새 문제를 해결하는 예제 워크플로우를 제공했습니다.

훈련 데이터의 대부분이 풍경 파노라마로 구성되어 있기 때문에, 이 모델은 이러한 장면에 매우 뛰어납니다(기본 Flux도 이 부분에서 그리 나쁘지 않습니다). 그러나 실내 장면은 훈련 데이터에 거의 포함되지 않았습니다. 그 결과 실내 장면에서는 비율이 자주 왜곡되어 물체가 너무 크게 보이거나, 방의 벽의 수가 맞지 않거나, 얼굴이 왜곡되는 등의 문제가 발생합니다. 향후에는 장면의 균형 잡힌 데이터로 재학습하고 싶습니다.

인용

이 LoRA는 온라인에서 무료로 제공되는 등각도 이미지로 훈련되었으며, 주로 워터마크가 없는 고품질 사진을 제공하는 Flickr의 equirectangular panorama 그룹에서 이미지를 사용했습니다. 다음 사용자의 이미지를 사용했습니다: j.nagel, Kevin Jennings, Uwe Dörnbrack, Cristian Marchi, Patricia Müller, Tiger Lin Panowork, Faillace. 이들 분의 뛰어난 사진 덕분에 이 작업이 가능했습니다. 이 모델의 출력물에 훈련 세트와 매우 유사한 이미지가 나타날 가능성은 매우 낮으며, 실제로는 구면 렌즈 왜곡이 이미지에 미치는 영향을 보여주는 예시일 뿐입니다.

이 모델은 FLUX.1 Dev를 기반으로 구축되었으므로, 이 모델로 생성된 이미지는 여전히 FLUX.1 Dev 비상업 라이선스를 준수해야 합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.