Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU
详情
下载文件
关于此版本
模型描述
特别感谢:
@soulseeker 分享他的知识并提供了最初的关键提示。
功能:
此工作流可半自动生成带有音频的“简单”视频。我将其设计为一站式解决方案,您只需提供一张起始图像即可。
在配备 12GB 显存的 RTX 3060 和 32GB 内存 + 大型交换文件(至少 32–64 GB)的系统上运行效果极佳。
安装简便(所有必要模型均已链接)。
通过开关选项轻松使用。
输出高质量视频。
该工作流包含 4 个简单步骤:
使用边缘文本转语音生成简单音频,
为 DWPose 生成运动控制视频,
InfiniteTalk:生成受运动控制且与音频同步的低质量视频,
上采样并提高帧率,以获得流畅的高质量输出。
约 5 秒的视频效果良好。您或许可以生成长达 8 或 10 秒的视频,但我尚未测试过。
此工作流目前处于初始“alpha”阶段。所有功能在技术上应均可正常运行,因此我认为它是一个适合进行初步和简单测试的良好基础,也希望您能从中获得一些乐趣 🙂
但我确信还有很多可以改进的地方,例如:
更优秀的文本转语音方案,以实现更好的音频控制,如强调、语速、停顿等。
改进的运动与摄像机控制等。
注意:
此工作流面向更高级的 ComfyUI 用户。尽管安装和使用应非常简单,但本工作流仅作为测试和开发的基础,您可能需要一些 ComfyUI 知识才能使用。请理解,我不会在此提供安装或 ComfyUI 支持。
如果您是视频生成和复杂工作流的初学者,我建议您尝试我另一个专为 视频生成 设计的工作流。该工作流已得到充分测试,文档和注释也更为完善。
本工作流基于官方模板及多个已发布的现有工作流,我只是将不同部分整合在一起,创建了一个力求易用的“设计”,并针对 12GB 显存进行了全面优化。
