Wan VACE 2.1 & 2.2 - Seamlessly Extend, Join, and Auto-Fill Existing Videos While Maintaining Motion

详情

模型描述

Wan 2.2 在使用 wan2.2_t2v_low_noise_14B 文件作为模型加载节点时基本可以正常工作,并呈现出更逼真的效果。此外,如果将分辨率保持在 720p 以上,它似乎能显著减少色彩漂移。不过,Wan 2.1 在 LoRA 和更中性风格方面似乎表现更好。具体而言,如果你尝试进行截然不同的创作,Wan 2.1 1.3B 版本似乎是最佳选择,因为更高参数的模型显得更僵硬、限制更多。


这是我之前在 Reddit/Github 上发布的流程:
https://www.reddit.com/r/StableDiffusion/comments/1k83h9e/seamlessly_extending_and_joining_existing_videos/

该流程揭示了 WAN VACE 一个相对被忽视的功能——时间延长。它被轻描淡写地称为“首段视频扩展”,但实际上它可以自动填充视频中几乎任何缺失的片段——无论是现有片段之间完全缺失的帧,还是被遮罩的部分(如人脸、物体)。

它优于图像到视频 / 起始-结束帧方法,因为它能保留现有片段的运动(并将其与后续片段的运动无缝衔接)。

观看以下视频,了解源视频(左侧)和遮罩视频(右侧)的样式。缺失的片段(灰色)分布在多个位置,包括缺失的人脸等,而这些都会由 VACE 一次性补全。

该流程基于 Kijai 的 WAN VACE 工作流构建。我在右下角新增了时间延长部分作为第四个分组。(因此,原始工作流的功劳归于 Kijai。)

该流程需要输入两个视频:一个是源视频(缺失帧/内容部分为灰色),另一个是遮罩视频(黑白图像,缺失的灰色内容被重设为白色)。我通常通过将原始视频的亮度设为 -999 或类似值,并将灰色区域重新着色为白色来制作遮罩视频。

请确保视频长度保持在约 5 秒,以匹配 Wan 的默认输出长度(16fps 下为 81 帧,或根据帧率相应调整)。你可在此下载 VACE 的示例片段,以获得精确的长度和灰色色值(#7F7F7F)用于源视频:https://huggingface.co/datasets/ali-vilab/VACE-Benchmark/blob/main/assets/examples/firstframe/src_video.mp4

在工作流中,我建议将 Shift 设为 1,CFG 设为 2-3,以便其主要专注于平滑衔接现有片段。我发现较高的数值有时会引入伪影。

提升视频质量并最小化细节损失或色彩漂移的建议:

  • 将 CFG 设为 2-3,Shift 设为 1,以最大程度保留现有片段的细节。
  • 以 1080p 分辨率渲染以减少色彩漂移。CausVid 可将渲染时间减少 5 倍以上(仅需 8 步而非 50 步)。
  • 在 ComfyUI 中使用 MKL 模式的 Color Match 节点可减轻漂移(但若场景变化剧烈则不总是适用)。
  • 在视频编辑器中微调色调(+2 至 +7)并略微降低饱和度,以补偿色彩漂移。
  • 尽可能先用常规图像到视频(I2V)启动场景(无色彩漂移),然后用 VACE 掩码添加新变化(使用羽化融合,尽可能多地复用 I2V 场景中的无漂移部分)。或者,也可以使用 FramePack 的视频输入或 SkyReels V2 扩展出“场景骨架”(无色彩漂移),再用 VACE 补充变化内容。

需要下载的模型:

此处另附一个视频,展示视频输入加载后的效果。

此模型生成的图像

未找到图像。