VR we are!

„VR we are“ 4.0은 다음을 제공합니다:

Python 앱: 이미지 및 비디오를 관리하고, 트림 및 자르기를 위한 간단한 편집기를 제공하며, AI 콘텐츠 제작자용으로 최적화된 평가 기능을 제공합니다. (이미지 참조)
사용자 정의 가능한 파이프라인: 워크플로우를 간소화하기 위한 여러 단계를 포함하며, 비-AI 콘텐츠도 처리할 수 있고 다른 도구를 지원합니다:
- 스테레오 3D(SBS)로 변환 - 별도 CLI 설치 가능 (Linux 지원)
- Topaz Video AI CLI 지원: 확대 및 보간 (대체: ComfyUI 워크플로우)
- GoogleTrans 및 exiftool을 사용해 자막으로 비디오에 태그 추가
워크플로우용 여러 ComfyUI 사용자 정의 노드

파이프라인 단계 개요 (자세한 내용은 매뉴얼 참조):

... 템플릿을 기반으로 더 많은 작업을 생성하세요!

파이프라인 상태 및 시각적 개요:

설치 및 문서

설치는 zip 파일의 installer 폴더에 포함된 설치 프로그램을 통해 수행할 수 있습니다. docs 폴더에 사용자 매뉴얼(PDF)이 포함되어 있습니다.

진행 상황만 확인하고 싶다면, 우리의 작은 디스코드의 roadmap-and-progress 채널을 방문할 수 있습니다. 여기서 문제를 보고하거나 피드백을 제공할 수도 있습니다.

이전 버전에는 VR we are을 사용한 VR 콘텐츠 생성의 다양한 예제가 포함되어 있습니다.

개요

이 소프트웨어는 AI 창작자를 지원하고, 로컬 컴퓨터의 인공지능(AI) 모델을 사용하여 비디오 및 이미지와 같은 익숙한 멀티미디어 콘텐츠를 가상 현실(VR) 환경으로 가져오도록 설계된 몰입형 생산성 및 창작 도구입니다. 대부분의 처리는 오프라인에서 수행할 수 있습니다.

다음 이미지는 „VR we are“의 구성 요소를 보여줍니다:

„VR we are“는 다음 소프트웨어를 기반으로 합니다:

ComfyUI: 시각적 AI 분야를 위한 기반 오픈소스 소프트웨어입니다.
„VR we are“는 이를 배포 및 실행 플랫폼으로 사용합니다.
- Stereoscopic: „VR we are“ 소프트웨어를 포함한 ComfyUI용 사용자 정의 노드 패키지입니다. SBS 변환기 및 CLI의 높은 성능을 위해 iablunoshka의 도움을 받았습니다. 초기 테스트는 SamSeen의 노드를 사용하여 수행되었습니다.
FFmpeg: 비디오 및 이미지 조작을 위한 명령줄 멀티미디어 프레임워크를 제공합니다.
Exiftool: 멀티미디어 메타데이터를 읽고 편집하는 명령줄 도구입니다.
- Google Trans: 텍스트를 번역하는 옵션 서비스로, 온라인 연결이 필요합니다(자국어로).
Topaz Video AI(TVAI): 사용 가능한 경우 사용되는 옵션 전문 제품으로, 확대 및 비디오 보간(프레임 레이트 증가)에서 큰 속도 및 품질 향상을 제공합니다.
Git Bash(패키지): Microsoft Windows 환경에서 실행되는 애플리케이션으로, „VR we are“를 실행하기 위해 필요한 Git 명령줄 경험을 에뮬레이션합니다.

„VR we are“는 처리를 위해 멀티미디어 파일을 입력 펀널(파일 폴더)에 배치하기를 기다립니다. 기본적으로 파일은 비선형 파이프라인을 통해 처리되어 출력 바구니(파일 폴더)에 도달합니다. 단계별 파이프라인은 사용자 정의할 수 있으며, 완전히 비활성화할 수도 있습니다.

일부 단계는 사전 정의된 템플릿을 기반으로 사용자가 직접 생성할 수 있으므로, 반복적으로 수행해야 하는 단순한 작업을 파이프라인의 원하는 위치에 통합하기에 매우 편리합니다. 간단한 ffmpeg 작업을 위한 일부 img2img 및 vid2vid 템플릿이 존재합니다.

자동 전달 파이프라인

워크플로우를 위한 차트가 생성되며, 사용자 정의하면 PlantUML 온라인 서비스를 통해 자동으로 업데이트됩니다. 다음 다이어그램은 파이프라인에 참여하는 모든 단계를 보여주는 예시입니다. 클릭하여 확대하세요:

ComfyUI 사용자 정의 노드 라이브러리(발췌)

comfyui_stereoscopic에는 여러 사용자 정의 노드가 정의되어 있습니다.

VR로 변환(ImageVRConverter)

10.3장에서 설명

해상도 정보

이미지 배치에서 기본 정보를 얻기 위한 보조 노드

XML 제거

문자열에서 XML을 제거하는 내부 사용 노드(Florence 2 문제)

스트립된 UTF-8 파일 저장

원시 텍스트 데이터를 저장하는 내부 사용 노드

비율로 확대/축소

비율과 알고리즘에 따라 확대 또는 축소. 비율 1.0에서는 아무 작업도 하지 않음.

해상도로 확대

깊이 맵 생성을 위한 내부 사용 노드, 특정 해상도로 확대

차원 계산

이미지의 차원을 계산해 주는 노드. 종횡비와 픽셀 수(기본 해상도와 비율의 곱의 제곱)를 유지합니다.

Strftime

“어떤 작업”이 완료된 시점을 기준으로 형식화된 타임스탬프를 생성합니다.

오디오 저장(간단)

오디오를 FLAC 파일로 저장합니다.

VRwearePause, VRwearePauseLatent

파이프라인이 일시 중지될 때까지 이미지/잠재 이미지의 워크플로우 진행을 차단합니다.

고급 이미지 로드

절대 파일 경로 또는 입력 이미지 선택에서 이미지를 로드하고, 미리보기를 표시하며, 이미지 파일의 기본 이름, 너비 및 높이 정보를 제공합니다.

선형 페이드

비디오 시퀀스를 확장할 때 단단한 색상 점프를 방지하기 위해 시간에 따른 색상 보정 강도를 제어합니다. 일반적으로 First Image To Video 워크플로우에서 나타납니다. 예: VAE 디코딩 후 kjnodes Color Match hm-mvgd-hm 또는 Color Correct Batch 이전에 사용. 장면 전환이 있는 경우 시작점을 0.0으로 설정하는 것이 좋습니다. 색상을 고정하려면 시작점과 끝점을 모두 1.0으로 설정하세요.