Wan VACE 2.1 & 2.2 - Seamlessly Extend, Join, and Auto-Fill Existing Videos While Maintaining Motion
详情
下载文件
模型描述
Wan 2.2 在使用 wan2.2_t2v_low_noise_14B 文件作为模型加载节点时基本可以正常工作,并呈现出更逼真的效果。此外,如果将分辨率保持在 720p 以上,它似乎能显著减少色彩漂移。不过,Wan 2.1 在 LoRA 和更中性风格方面似乎表现更好。具体而言,如果你尝试进行截然不同的创作,Wan 2.1 1.3B 版本似乎是最佳选择,因为更高参数的模型显得更僵硬、限制更多。
这是我之前在 Reddit/Github 上发布的流程:
https://www.reddit.com/r/StableDiffusion/comments/1k83h9e/seamlessly_extending_and_joining_existing_videos/
该流程揭示了 WAN VACE 一个相对被忽视的功能——时间延长。它被轻描淡写地称为“首段视频扩展”,但实际上它可以自动填充视频中几乎任何缺失的片段——无论是现有片段之间完全缺失的帧,还是被遮罩的部分(如人脸、物体)。
它优于图像到视频 / 起始-结束帧方法,因为它能保留现有片段的运动(并将其与后续片段的运动无缝衔接)。
观看以下视频,了解源视频(左侧)和遮罩视频(右侧)的样式。缺失的片段(灰色)分布在多个位置,包括缺失的人脸等,而这些都会由 VACE 一次性补全。
该流程基于 Kijai 的 WAN VACE 工作流构建。我在右下角新增了时间延长部分作为第四个分组。(因此,原始工作流的功劳归于 Kijai。)
该流程需要输入两个视频:一个是源视频(缺失帧/内容部分为灰色),另一个是遮罩视频(黑白图像,缺失的灰色内容被重设为白色)。我通常通过将原始视频的亮度设为 -999 或类似值,并将灰色区域重新着色为白色来制作遮罩视频。
请确保视频长度保持在约 5 秒,以匹配 Wan 的默认输出长度(16fps 下为 81 帧,或根据帧率相应调整)。你可在此下载 VACE 的示例片段,以获得精确的长度和灰色色值(#7F7F7F)用于源视频:https://huggingface.co/datasets/ali-vilab/VACE-Benchmark/blob/main/assets/examples/firstframe/src_video.mp4
在工作流中,我建议将 Shift 设为 1,CFG 设为 2-3,以便其主要专注于平滑衔接现有片段。我发现较高的数值有时会引入伪影。
提升视频质量并最小化细节损失或色彩漂移的建议:
- 将 CFG 设为 2-3,Shift 设为 1,以最大程度保留现有片段的细节。
- 以 1080p 分辨率渲染以减少色彩漂移。CausVid 可将渲染时间减少 5 倍以上(仅需 8 步而非 50 步)。
- 在 ComfyUI 中使用 MKL 模式的 Color Match 节点可减轻漂移(但若场景变化剧烈则不总是适用)。
- 在视频编辑器中微调色调(+2 至 +7)并略微降低饱和度,以补偿色彩漂移。
- 尽可能先用常规图像到视频(I2V)启动场景(无色彩漂移),然后用 VACE 掩码添加新变化(使用羽化融合,尽可能多地复用 I2V 场景中的无漂移部分)。或者,也可以使用 FramePack 的视频输入或 SkyReels V2 扩展出“场景骨架”(无色彩漂移),再用 VACE 补充变化内容。
需要下载的模型:
models/diffusion_models:Wan 2.1/2.2 T2V(任选其一,VACE 的 14B/1.3B 模型如下):
Wan 2.2 T2V 低噪 14B FP16: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp16.safetensors
Wan 2.2 T2V 低噪 14B FP8: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
Wan 2.1 14B FP16: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_14B_fp16.safetensors
Wan 2.1 14B FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
Wan 2.1 1.3B FP16: https://huggingface.co/IntervitensInc/Wan2.1-T2V-1.3B-FP16/blob/main/diffusion_pytorch_model.safetensors
Wan 2.1 1.3B FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensorsmodels/diffusion_models:WAN VACE(任选其一,与上述 Wan 的 14B/1.3B 模型匹配):
14B BF16: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-VACE_module_14B_bf16.safetensors
14B FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-VACE_module_14B_fp8_e4m3fn.safetensors
1.3B BF16: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-VACE_module_1_3B_bf16.safetensorsmodels/text_encoders:umt5-xxl-enc(任选其一):
BF16: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-bf16.safetensors
FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-fp8_e4m3fn.safetensorsmodels/vae:WAN 2.1 VAE(所有 Wan 版本通用):
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensorsmodels/loras:WAN CausVid V2 14B T2V,可将步数减少至 8(仅适用于 Wan 2.1 14B):https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_14B_T2V_lora_rank32_v2.safetensors
此处另附一个视频,展示视频输入加载后的效果。