MoCha | Wan2_1_mocha-14B-preview_fp8_e4m3fn_scaled_KJ
详情
下载文件
模型描述
从 Hugging Face 迁移。
https://huggingface.co/Kijai/WanVideo_comfy_fp8_scaled/tree/main/MoCha
工作流示例:https://www.runninghub.ai/post/1980967242705854466
开始使用 MoCha
要使用 MoCha 进行自己的角色替换,需要以下三个输入:
源视频:包含待替换角色的原始视频。
首帧指定掩码:在源视频首帧中标记待替换角色的掩码。
参考图像:用于替换的新角色的参考图像,需具有干净背景。我们建议上传至少一张高质量、正面的面部特写。
摘要
无需结构引导的端到端视频角色替换。
由于缺乏高质量的配对视频数据,使用用户提供的参考进行可控视频角色替换仍是一个具有挑战性的问题。以往的研究主要采用基于重建的范式,依赖每帧掩码和显式的结构引导(例如姿态、深度)。然而,这种依赖使其在涉及遮挡、罕见姿态、角色-物体交互或复杂光照的复杂场景中表现脆弱,常常导致视觉伪影和时序不连续。本文提出 MoCha,一种新颖的框架,仅需一个首帧掩码,通过将不同条件统一为单一流式标记来重新渲染角色。此外,MoCha 采用条件感知的 RoPE,以支持多参考图像和可变长度视频生成。为克服数据瓶颈,我们构建了一个综合的数据合成流程,以收集高质量的配对训练视频。大量实验表明,我们的方法显著优于现有的最先进方法。
有关模型的详细信息:https://orange-3dv-team.github.io/MoCha/
定性性能
卡通角色替换
MoCha 在以卡通角色参考图像为条件时,能够生成高保真视频。
真人角色替换
MoCha 在替换源视频中的真人角色方面也表现优异。
场景光照一致性
与现有工作相比,MoCha 能更好地保留原始视频的光照和色彩基调,使角色更自然地融入新环境。此外,MoCha 能处理复杂的光照条件,如晃动的光线和强逆光。
精确动作保留
MoCha 能够准确复制原始视频中的动作和表情,即使在涉及快速运动和物体交互的复杂场景中也能保持高保真度,确保生成的角色视频高度还原源视频的表现。
