Wan2.2 V2V VACE One-Click 'Seamless' Workflow Loop, Preserving Subject

详情

下载文件

模型描述

“将抖动物理的力量握在掌中”

——多克·奥克或类似的角色

这是一个在Wan2.2中设计的VACE V2V工作流,用于根据您提供的参考图像提取主体,并替换您提供的参考视频中的主体。这意味着图像中的主体将执行视频中主体所进行的任何动作。

V2:注意事项——重要!!

我找不到一个不冲突的节点来生成某种静音。鉴于我所能找到/使用的输出限制,我最终不得不为这种情况编写自己的自定义节点。该自定义节点已包含在此工作流的下载包中。只需将名为“Silence Generator”的文件夹及其内容复制到ComfyUI的“custom node”文件夹中。重启ComfyUI即可正常使用。

如果您知道有能生成一秒钟静音的节点,可以直接替换这个自定义节点(并告诉我它是哪个!)。

我会在此陆续更新我遇到的一些小问题。这些并非真正意义上的bug,但有助于解决潜在问题:

  • 问题:“即使LayerStyle节点包已更新,仍找不到LayerUtility: Purge VRAM V2”
    解决方案:直接从此处克隆到您的custom_nodes目录:https://github.com/chflame163/ComfyUI_LayerStyle
    根本原因:ComfyUI注册表可能缓存了错误版本

  • 问题:“我的VRAM不足,模型对我机器来说太大,运行缓慢/内存溢出”
    解决方案:改用GGUF版本。您可能需要不同的加载器。若将模型输出连接到加载器后面的set节点输入,应能正常工作。如果仍不清楚且谷歌无果,请告知我,我可以提供指导。
    根本原因:我是在H100虚拟机上创建此工作流的。

  • 问题:“运行InspyrenetRembgAdvanced工作流时出现numpy错误”
    解决方案:我偶尔会遇到这个问题。我非常不喜欢这个节点,可能会尽快找替代方案。目前,再次运行工作流时,它会忽略该错误。
    根本原因:节点太粗糙。

简要工作原理如下:

  1. 您输入参考图像、参考视频、尺寸、VACE模型、迭代次数、每次迭代处理的帧数、重叠帧数及其他参数。

  2. 对视频的每一迭代片段执行边缘检测、姿态估计及可选的高级遮罩处理。同时对图像进行填充处理,使其与视频宽高比匹配。

  3. 对视频/参考图像等执行VACE处理。

  4. 将VACE输出中用户指定的重叠帧替换为灰色帧。

如果是第0次迭代(首次迭代),则批量处理并进入下一次迭代;否则...

  1. 使用黑白遮罩技巧,在另一个独立的VACE工作流中处理过渡帧(但仍在当前工作流内,不分离)。

  2. 将第4步插入的灰色帧替换为第5步处理后的帧。

  3. 将当前迭代的最后一帧送回工作流开头,对该帧中的主体进行遮罩,并将原始参考图像中的角色覆盖其上。(这一步至关重要,可以避免每次迭代出现典型的“煮过头”效果,区别于其他工作流中“将最后一帧作为参考直接传递”的做法。)

  4. 重复步骤2至6,直至达到设定的总迭代次数。

  5. 剪去整体视频最开头的灰色帧。

结果?

您将获得一个近乎无缝的视频,VACE处理后的过渡自然流畅。主体不会被破坏,但高迭代次数下背景可能出现轻微失真。

我设计此工作流的目标是操作简便,尽管其中遍布复杂的数学与条件节点,看起来可能有些疯狂。

免责声明:我在H100上运行此工作流。除非您的显卡拥有真正的100%“安格斯牛肉”级算力,而非“土豆机”,否则您几乎肯定需要更换扩散模型、文本编码器等以提升速度。我倾向于优先保证质量,速度次之。

未来可拓展方向:

  • 集成Canny边缘检测…

  • …和/或更精准地保留嘴型同时移除遮罩 — 中等优先级

  • 更好地理解姿态融合,以便在不使姿态在最终视频中呈现为独立物体的情况下引入更多姿态。(可能是颜色?融合方式?需研究)— 中等优先级

  • ̶音̶频̶ — 最高优先级,即将推出。正在研究同步技术。- 已完成

  • 背景选项:允许用户选择视频背景、图像背景,或生成全新的T2V风格背景 — 低优先级

  • 更好地保持从初始图像到首次生成时的背景一致性(可能需要在控制视频上添加遮罩)— 中等优先级

  • ̶插̶值̶步̶骤̶,̶或̶许̶上̶采̶样̶ — 中等优先级,简单易实现,但我希望找到兼顾质量与速度的最佳方式**_- 已完成_**

  • 允许在用户指定的迭代中使用不同的参考图像,可拓展更多可能性 — 低优先级

  • 将已弃用的resize image v1更换为v2 — 中等优先级,正在进行中

  • 修复bug — 根据bug严重程度定为中等优先级

个人备注:

这个项目最初源于:“我有一段源视频很喜欢,但讨厌其中文艺复兴风格的遮罩效果,想替换人物。”于是我决定让这个过程循环进行。接着我想:“如果能让重叠部分无缝衔接呢?”于是我在其中加入了完整的FL2V步骤,但结果仍不完美,存在色差和跳跃。后来我在CivitAI上看到了一些“无缝”工作流,挺有意思的!……但它们依赖文件路径,本质上是分离的流程。我希望只需点击一个按钮就能处理完整视频,因此继续完善了这个系统。它当然还不完美,无法完全实现我想要的1:1精确替换,但就目前的功能而言,我觉得已经相当酷了。接下来,主要目标是全面微调,修复边界情况,并添加更多功能。

此模型生成的图像

未找到图像。