MMAudio Batch Soundifier
详情
下载文件
关于此版本
模型描述
简单的批量处理,用于为视频添加声音,含“调皮”模式,非必需。使用我所有批量工作流程中通用的基础for循环。超级简单:指定源目录和目标目录,点击运行,次数等于文件夹中视频的数量即可。或者一直点到你累了为止——这无关紧要。系统会自动追踪已完成的项目,当“调皮”视频用完时便会停止。
MMAudio 是在 24fps 下训练的,有一个按钮可切换到更高帧率,效果不错,但有几点小注意事项,我已在内部注明。实际上,现在想想,这个切换按钮可能根本不需要,因为 VHS 视频信息中已有源/加载选项……模型只关心时长,会对图像输入端不满意的部分进行降采样。因此,除非你输入的帧率低于 24fps,否则基本不会有问题。但我就是这样用的,效果很好。
我尝试过 12-15 秒的片段,但效果不如更短的片段。我认为 8-9 秒是最佳质量。由于我主要制作时长数分钟的组合作品,因此为已完成的作品生成音频时,必须先将其分割成片段。Shutter Encoder 的“分割”功能非常适合快速完成这项任务,远比使用 Premiere 快得多。此外,如果你在处理前确实需要分割长视频,可以同时强制输出为 24fps,这将加快 MMAudio 的处理速度(而不是用 60fps 视频运行它)。
提示词尽量保持极简——NSFW 模型能自行填补空白,仅在必要时添加细节。
文件名会自动传递到新的合并节点。我正在为大量已完成的 60fps 内容添加声音,因此其中包含了音频保存节点,因为我无需再次保存视频。
在添加插值和缩放时请谨慎,若将其整合进更大型的工作流,可能需要节制使用并适时清理 VRAM。当你以较低帧率处理音频,但输出发送至插值合并节点时,情况会变得复杂。若从零开始并计划添加音频,我更倾向于在 WAN 解码后,或上采样后直接设定一个专用的 24fps 文件夹(上采样有助于音频模型更好地理解画面内容)。这样可以避免浪费时间处理不合格的视频。
此处是一个包含插值的工作流。(NSFW)适用于 WAN 2.2 I2V 14B 的极简 MMAudio + RIFE 插值设置
SeoulSeeker 好心提醒我,MMAudio 自我上次玩弄它以来已大幅提升。如你所知,这通常意味着最多几周的时间。

