Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU

详情

模型描述

特别感谢:

@soulseeker 分享他的知识并提供了最初的关键提示。

功能:

此工作流可半自动生成带有音频的“简单”视频。我将其设计为一站式解决方案,您只需提供一张起始图像即可。

  • 在配备 12GB 显存的 RTX 3060 和 32GB 内存 + 大型交换文件(至少 32–64 GB)的系统上运行效果极佳。

  • 安装简便(所有必要模型均已链接)。

  • 通过开关选项轻松使用。

  • 输出高质量视频。

该工作流包含 4 个简单步骤:

  1. 使用边缘文本转语音生成简单音频,

  2. 为 DWPose 生成运动控制视频,

  3. InfiniteTalk:生成受运动控制且与音频同步的低质量视频,

  4. 上采样并提高帧率,以获得流畅的高质量输出。

约 5 秒的视频效果良好。您或许可以生成长达 8 或 10 秒的视频,但我尚未测试过。

此工作流目前处于初始“alpha”阶段。所有功能在技术上应均可正常运行,因此我认为它是一个适合进行初步和简单测试的良好基础,也希望您能从中获得一些乐趣 🙂

但我确信还有很多可以改进的地方,例如:

  • 更优秀的文本转语音方案,以实现更好的音频控制,如强调、语速、停顿等。

  • 改进的运动与摄像机控制等。

注意:

此工作流面向更高级的 ComfyUI 用户。尽管安装和使用应非常简单,但本工作流仅作为测试和开发的基础,您可能需要一些 ComfyUI 知识才能使用。请理解,我不会在此提供安装或 ComfyUI 支持。

如果您是视频生成和复杂工作流的初学者,我建议您尝试我另一个专为 视频生成 设计的工作流。该工作流已得到充分测试,文档和注释也更为完善。

本工作流基于官方模板及多个已发布的现有工作流,我只是将不同部分整合在一起,创建了一个力求易用的“设计”,并针对 12GB 显存进行了全面优化。

此模型生成的图像

未找到图像。