(NSFW) Dead-Simple MMAudio + RIFE Interpolation Setup for WAN 2.2 I2V 14B
详情
下载文件
关于此版本
模型描述
更新日志
版本 1.0.1:RIFE Group 的输出意外设置为 8fps,现已更改为 24fps。
版本 1.0:初始发布
献给所有枪手
你的 WAN 2.2 视频很棒,看起来非常出色。但声音在哪?我们从图像转向了视频,而 WAN 2.2 在视频方面表现惊人。缺失的部分……是音频!
这是我有史以来的第一篇文章,如果我犯了任何错误,敬请谅解。如果我有错误或你需要任何帮助,请留下评论。供你参考,我正在使用:
ComfyUI 0.3.68
Torch 2.9
CUDA 13
Python 3.13.9
Sage Attention 2.2
NVIDIA 5070 Ti(16GB 显存)
以下是自定义节点(共 3 个):
ComfyUI-VideoHelperSuite 1.7.7 (https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite)
ComfyUI-MMAudio Nightly 版 (https://github.com/kijai/ComfyUI-MMAudio)
ComfyUI-VFI 版本未知 (https://github.com/GACLove/ComfyUI-VFI)
- 我认为有其他更流行的 RIFE 自定义节点被很多人使用,但我无法弄清楚如何实现分数倍插值(16 → 24fps 是 1.5 倍插值),而这个节点支持该功能。
接下来是工作流...
------------------------------------
此工作流处理两项任务:
使用 RIFE 将 WAN 2.2 原生的 16fps 输出插值为 24fps。
使用 MMAudio 根据最终的 24fps 视频生成同步音频。
设置即插即用。将你的 WAN 视频放入 → 插值 → 输入 MMAudio → 获取同步输出。附带的说明解释了关于帧率、步数设置和种子行为的原理。
此工作流涵盖:
RIFE 从 16fps 到 24fps 的插值。
MMAudio 采样器(推荐设置:50 步,cfg 4.5)。
自动将音频与视频在 24fps 下合并。
可选:若需输出 30fps 或更高,可进行二次插值。
- 你可以将已完成的 24fps 视频接入“步骤 1:RIFE 插值”组,仅需将
source_fps改为 24,target_fps改为 30。
- 你可以将已完成的 24fps 视频接入“步骤 1:RIFE 插值”组,仅需将
必需的 MMAudio 文件
将以下所有文件下载至:
ComfyUI/models/mmaudio
MMAudio NSFW 模型(基于基础模型微调)
MMAudio VAE(fp16)
MMAudio Synchformer(fp16)
https://huggingface.co/Kijai/MMAudio_safetensors/resolve/main/mmaudio_synchformer_fp16.safetensors
MMAudio CLIP 编码器(fp16)
额外提示
一旦你生成了优质的 MMAudio 音轨,可根据你的创作目标进一步处理:
将你的音频/视频导入某种软件(如 CapCut/Shotcut),并在背景中叠加一些音乐。我已在几个视频中这样做了,添加了“收音机”滤镜,使音乐听起来像是微弱地在背景中播放。
在 NSFW 音轨旁叠加其他音轨。你可以参考 KaptainSisay 在此处优雅地完成的类似操作:(https://civitai.com/images/110700679)
