(NSFW) Dead-Simple MMAudio + RIFE Interpolation Setup for WAN 2.2 I2V 14B

详情

模型描述

更新日志

版本 1.0.1:RIFE Group 的输出意外设置为 8fps,现已更改为 24fps。

版本 1.0:初始发布

献给所有枪手

你的 WAN 2.2 视频很棒,看起来非常出色。但声音在哪?我们从图像转向了视频,而 WAN 2.2 在视频方面表现惊人。缺失的部分……是音频!

这是我有史以来的第一篇文章,如果我犯了任何错误,敬请谅解。如果我有错误或你需要任何帮助,请留下评论。供你参考,我正在使用:

  • ComfyUI 0.3.68

  • Torch 2.9

  • CUDA 13

  • Python 3.13.9

  • Sage Attention 2.2

  • NVIDIA 5070 Ti(16GB 显存)

以下是自定义节点(共 3 个):

接下来是工作流...

------------------------------------

此工作流处理两项任务:

  1. 使用 RIFE 将 WAN 2.2 原生的 16fps 输出插值为 24fps。

  2. 使用 MMAudio 根据最终的 24fps 视频生成同步音频。

设置即插即用。将你的 WAN 视频放入 → 插值 → 输入 MMAudio → 获取同步输出。附带的说明解释了关于帧率、步数设置和种子行为的原理。

此工作流涵盖:

  1. RIFE 从 16fps 到 24fps 的插值。

  2. MMAudio 采样器(推荐设置:50 步,cfg 4.5)。

  3. 自动将音频与视频在 24fps 下合并。

  4. 可选:若需输出 30fps 或更高,可进行二次插值。

    1. 你可以将已完成的 24fps 视频接入“步骤 1:RIFE 插值”组,仅需将 source_fps 改为 24,target_fps 改为 30。

必需的 MMAudio 文件

将以下所有文件下载至:

ComfyUI/models/mmaudio

MMAudio NSFW 模型(基于基础模型微调)

https://huggingface.co/phazei/NSFW_MMaudio/resolve/main/mmaudio_large_44k_nsfw_gold_8.5k_final_fp16.safetensors?download=true

MMAudio VAE(fp16)

https://huggingface.co/Kijai/MMAudio_safetensors/resolve/5984623e6b436818c6ff287ef6eec93e3e05aa3f/mmaudio_vae_44k_fp16.safetensors

MMAudio Synchformer(fp16)

https://huggingface.co/Kijai/MMAudio_safetensors/resolve/main/mmaudio_synchformer_fp16.safetensors

MMAudio CLIP 编码器(fp16)

https://huggingface.co/Kijai/MMAudio_safetensors/resolve/main/apple_DFN5B-CLIP-ViT-H-14-384_fp16.safetensors

额外提示

一旦你生成了优质的 MMAudio 音轨,可根据你的创作目标进一步处理:

  1. 将你的音频/视频导入某种软件(如 CapCut/Shotcut),并在背景中叠加一些音乐。我已在几个视频中这样做了,添加了“收音机”滤镜,使音乐听起来像是微弱地在背景中播放。

  2. 在 NSFW 音轨旁叠加其他音轨。你可以参考 KaptainSisay 在此处优雅地完成的类似操作:(https://civitai.com/images/110700679)

此模型生成的图像

未找到图像。