MoCha | Wan2_1_mocha-14B-preview_fp8_e4m3fn_scaled_KJ
세부 정보
파일 다운로드
모델 설명
HuggingFace에서 전송.
https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/MoCha
워크플로우 샘플: https://www.runninghub.ai/post/1980967242705854466
MoCha 시작하기
MoCha를 사용하여 자체 캐릭터 교체를 시작하려면 다음 세 가지 입력이 필요합니다:
소스 비디오: 교체할 캐릭터가 포함된 원본 비디오.
첫 번째 프레임용 지정 마스크: 소스 비디오의 첫 번째 프레임에서 교체할 캐릭터를 표시하는 마스크.
참조 이미지: 깨끗한 배경을 가진 새로운 캐릭터의 참조 이미지. 품질이 높고 정면을 향한 얼굴 클로즈업을 최소한 하나 이상 업로드하는 것을 권장합니다.
개요
구조적 가이던스 없이 종단간 비디오 캐릭터 교체.
사용자가 제공하는 하나의 캐릭터로 비디오 캐릭터 교체를 제어하는 것은 적절한 쌍 비디오 데이터 부족으로 인해 여전히 도전적인 문제입니다. 기존 연구들은 프레임별 마스크와 명시적 구조적 가이던스(예: 자세, 깊이)에 의존하는 재구성 기반 패러다임을 주로 채택해 왔습니다. 그러나 이러한 의존성은 부분 가려짐, 희귀 자세, 캐릭터-객체 상호작용 또는 복잡한 조명 조건을 포함하는 복잡한 시나리오에서 취약해져 시각적 아티팩트와 시간적 불연속성을 초래하는 경향이 있습니다. 본 논문에서는 이러한 한계를 우회하는 MoCha라는 새로운 프레임워크를 제안합니다. MoCha는 단일 첫 번째 프레임 마스크만 필요하며, 다양한 조건을 단일 토큰 스트림으로 통합하여 캐릭터를 재렌더링합니다. 또한 MoCha는 다중 참조 이미지와 가변 길이 비디오 생성을 지원하기 위해 조건 인식 RoPE를 채택합니다. 데이터 병목 문제를 해결하기 위해, 우리는 적절한 쌍 훈련 비디오를 수집하기 위한 포괄적인 데이터 합성 파이프라인을 구축했습니다. 광범위한 실험을 통해, 우리의 방법은 기존 최첨단 접근 방식을 크게 능가함을 보여줍니다.
모델에 대한 자세한 정보는 다음을 참조하세요: https://orange-3dv-team.github.io/MoCha/
정성적 성능
만화 캐릭터 교체
MoCha는 만화 캐릭터 참조 이미지를 조건으로 하여 고화질 비디오를 생성합니다.
실제 인물 캐릭터 교체
MoCha는 소스 비디오 내의 실제 인물 캐릭터를 교체하는 데에서도 우수한 성능을 발휘합니다.
장면 조명 일관성
기존 연구들과 비교할 때, MoCha는 원본 비디오의 조명과 색조를 더 잘 보존하여 캐릭터가 새로운 환경에 자연스럽게 통합되도록 합니다. 또한 MoCha는 떨리는 조명이나 강한 역광과 같은 복잡한 조명 조건에도 대응할 수 있습니다.
정밀한 액션 보존
MoCha는 빠른 움직임과 객체 상호작용을 포함한 복잡한 시나리오에서도 원본 비디오의 액션과 표정을 정확하게 재현할 수 있습니다. 이를 통해 생성된 캐릭터 비디오가 원본 성능과 높은 일치도를 유지합니다.
