🎼MMAudio + 🎹ACE-Step (Music/Song Gen) Workflow for Videos
详情
下载文件
关于此版本
模型描述
🤡 我倾向于过度复杂化工作流程。(视为高级版本)
如需更简单的版本,请使用以下内容:
参考与致谢:
🔗(NSFW) 非常简单的 MMAudio + RIFE 插值设置,适用于 WAN 2.2 I2V
😀SeoulSeeker(CivitAI)
🪁 我在折腾 MMAudio,于是决定把这套工作流放在这里。
12/12/25 - 添加了带 ACE-Step 的工作流(音乐/歌曲生成)
- 修复了从视频中提取音频的问题。
⚠️ 需要 8 个自定义节点
⚠️ 子图
⚠️ 仅在 ComfyUI 桌面版中测试通过
✅ 面向 UI 的工作流
✅ 从视频上传音频
✅ 从文件上传音频
✅ 支持两个 MMAudio 用于声音/音乐生成
✅ 音量控制
✅ 支持超分辨率和/或帧插值
✅ 水印/Logo(随 Video FPS 重采样节点(White Rabbit)一同提供,不如直接用)
✅ 精简工作流
‼️ 自定义节点 ComfyUI-Swwan 可能导致工作流出现问题。(请确保已卸载,它与工作流中的某些开关存在冲突)
‼️ 禁用 "Node 2.0"。
🎹 可组合所有选定选项(从视频上传音频、从文件上传音频、MMAudio 1、MMAudio 2、ACE-Step)
💡 建议使用未经插值的视频,速度更快。但你仍可使用任意帧率的插值视频,只是可能较慢。
⚠️ 如果你的视频被放大至高分辨率,可能导致内存溢出。
⚠️ 在本工作流中进行视频插值时,输出帧率固定,以避免混淆和复杂化。(更改 FPS = 改变持续时间 = 影响 MMAudio)
💡 更推荐使用其他音频文件作为背景音乐(BGM),而非依赖 MMAudio。
(我使用 ACE-Step 生成 BGM)
MMAudio 对视频反应非常敏感,因此不太擅长生成音乐。例如:视频中的转场可能会破坏音乐的流畅性。有时这种断裂反而效果不错,或一个微笑可能触发恐怖电影的音效。有时节奏或旋律会跟随视频中的动作变化。
偶尔我会用 MMAudio 生成 BGM,但需要大量尝试。
📼上方发布的视频包含嵌入式工作流。(下载视频,拖入 ComfyUI)
需要 ComfyUI-VideoHelpSuite 自定义节点 才能在 ComfyUI 中从视频打开工作流。
⌨️使用方法:
将你的视频拖拽到 “📲模型加载器与视频上传” 子图中
在每个模块顶部启用所需选项。
为 🎼MMAudio 编写简单提示词,或上传音乐文件,或使用来自视频的音频。
- 3a. 点击 "🎲新固定随机" 为 🎼MMAudio 生成新声音。
▷运行
在 "🎥🎼视频合成" 中预览视频
如果你希望从 🎼MMAudio 生成新声音,请重复 3a. 并点击 ▷运行
选择 "🎞️帧插值"、"📐超分辨率" 和/或 ":💾保存输出",然后 ▷运行
💿安装 ComfyUI-MMAudio
1. Git 克隆
进入你的 ComfyUI 自定义节点目录。
🗂️ ComfyUI\custom_nodes
Windows:
将 ComfyUI-MMAudio 克隆到该目录中。
在目录中右键,选择“打开终端”,输入:
git clone https://github.com/kijai/ComfyUI-MMAudio.git
2. 安装
桌面版:
打开 ComfyUI,
点击 ComfyUI 中的 "🧩Manager"。
点击 "安装缺失的自定义节点"。
对 ComfyUI-MMAudio 选择 "尝试修复"。
重启 ComfyUI。
便携版:
进入你的 "python_embedded" 文件夹。
在目录中右键,选择“打开终端”,输入:
python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-MMAudio\requirements.txt
📥MMAudio 模型/文件下载链接
⚠️ 在 "🗂️: ComfyUI/models/" 文件夹中创建一个名为 "mmaudio" 的文件夹,并将所有文件放入其中。
mmaudio_model (可下载两者或任选其一,我通常两者都用,视所需音频而定)
🗂️: ComfyUI/models/mmaudio
📐超分辨率模型 下载链接
📐2x 超分辨率模型
🗂️: ComfyUI/models/upscale_models
(建议使用 2x 超分模型;也可使用 4x 模型,但耗时更长)
🎹ACE-Step 模型下载链接
加载工作流时,ComfyUI 会提示缺少模型。你可以直接从 ComfyUI 下载,或使用以下链接:
🎹 ace_step_v1_3.5b.safetensors
🗂️: ComfyUI/models/checkpoints
🗺️指南
📲模型加载器与视频上传

🎥从视频提取音频
- 启用:使用上传视频的音频。
- 禁用:仅使用上传视频,忽略音频。
📲模型加载器与视频上传
- 将视频拖入子图上传,下方会显示视频预览;将鼠标悬停在预览上,可听到音频(如有)。📐超分辨率模型 - 在此处选择你的超分模型。
MMAudio synchformer_model - mmaudio_synchformer_fp16.safetensors
MMAudio vae_model - mmaudio_vae_44k_fp16.safetensors
MMAudio clip_model - apple_DFN5B-CLIP-ViT-H-14-384_fp16.safetensors
选择要上传的视频 - 你也可以点击此处打开窗口选择视频,或直接拖拽视频到该子图中。
音量(⚠️本节点预览不反映调整后的音量)
- 设置视频音频的音量(十进制数值)
- 1 = 默认
- 负数 = 降低音量(例如 -6)
- 大于 1 = 提高音量
📤从文件夹加载音频
⚠️你必须点击 "选择要上传的文件" 才能上传音频/视频文件。
要上传带音频的视频(仅提取音频)或 mp3 文件,请选择 "所有文件(*.*)"。

📤从文件夹加载音频
- 启用:使用文件夹中的音频文件。
📤加载音频
选择要上传的文件 - 点击此处上传音频文件或含音频的视频。
音频预览(顶部) - 仅在上传音频文件后显示,可预览完整音频长度。
音频起始时间 - 输入音频开始的秒数。
0 = 从头开始。
若设为 6.50,则会截掉 6.5 秒前的所有内容。
结束时间将根据视频时长自动裁剪。音量 - 设置音频音量(十进制数值)
1 = 默认,
负数 = 降低音量(例如 -6),
大于 1 = 提高音量音频预览(底部) - 仅在工作流 ▷运行 后显示。可预览裁剪并调整音量后的音频。
💡点击 "⋮ "(三个点),可选择保存裁剪后的音频。视频预览 - 仅在工作流 ▷运行 后显示。可预览所用视频 + 已调整音量的上传音频。将鼠标悬停在视频预览上即可听到音频。
🎹ACE-Step
ACE Step 使用标准 KSampler 生成音乐。如需更改采样器或调度器,可进入子图调整。
🎹ACE-Step
- 启用:使用 **🎹**ACE-Step。
ckpt_name: ace_step_v1_3.5b.safetensors
Shift & Steps - 可保持默认,除非你想尝试调整。
人声音量 - 如有演唱,提高人声音量。
⚠️即使无演唱或仅为纯音乐,也必须设为 1。秒数 - 歌曲/音乐时长。(推荐 60 秒)
⚠️至少 20-30 秒。建议时长更长,之后再设定音乐起始点。若时长过短(5-10 秒太短),ACE-Step 将无法正常生成。音频预览(顶部) - 仅在工作流 ▷运行 后显示,可预览 ACE-Step 生成的完整歌曲。
💡点击 "⋮ "(三个点),可选择保存生成的歌曲/音乐。
💡用此功能寻找你希望音乐开始的位置。🎲新固定随机 & 种子 - 点击并 ▷运行,以获得新的种子生成新歌曲。
音频起始时间 - 输入音频开始的秒数。
0 = 从头开始。
若设为 6.50,则会截掉 6.5 秒前的所有内容。
结束时间将根据视频时长自动裁剪。音量 - 设置音频音量(十进制数值)
1 = 默认,
负数 = 降低音量(例如 -6),
大于 1 = 提高音量音频预览(底部) - 仅在工作流 ▷运行 后显示。可预览裁剪并调整音量后的音频。
💡点击 "⋮ "(三个点),可选择保存裁剪后的音频。ACE-Step 正向提示词 - 编写音乐风格、乐器、类型或情绪的提示词。
ACE-Step 音乐结构/歌词提示词 - 构建歌曲并添加歌词,或设为纯音乐。
💡更多提示词与结构示例,请访问: https://ace-step.github.io/视频预览 - 仅在工作流 ▷运行 后显示。可预览所用视频 + 生成的 ACE-Step 音乐/歌曲(已调整音量)。将鼠标悬停在视频预览上即可听到音频。
🎼第一与第二 MMAudio

🎼第一/第二 MMAudio
- 启用:使用 MMAudio。
🎼MMAudio
mmaudio_model - 在此处选择/切换 MMAudio 模型。
steps - 50 步即可获得足够质量且速度很快。
正向提示词(顶部)与负向提示词(底部)
- 在此处编写提示词,可保持简洁,几个词或标记即可。若音频未生成所需内容,可添加正向提示;若出现不想要的声音,可添加负向提示。
- 示例:
若视频中只有人弹吉他,但没有鼓声,可在提示中加入:"drums" 或 "drums, snare"。
若不希望出现人声,可在负向提示中加入 "vocals"。
-⚠️效果并非完美,可能需要多次尝试。
-(别问我提示词怎么写,我仍在摸索哪些有效,哪些是安慰剂效应。)音量 - 设置音频音量(十进制数值)
1 = 默认,
负数 = 降低音量(例如 -6),
大于 1 = 提高音量音频预览 - 仅在工作流 ▷运行 后显示。可预览生成的 MMAudio 音频(已调整音量)。
💡点击 "⋮ "(三个点),可选择保存生成的音频。🎲新固定随机 & 种子 - 点击并 ▷运行,以获得新的种子生成新音频。
视频预览 - 仅在工作流 ▷运行 后显示。可预览所用视频 + 生成的 MMAudio 音频(已调整音量)。将鼠标悬停在视频预览上即可听到音频。
🎥🎼视频合成
预览视频 + 合成音频(使用或生成)的输出效果。

filename_prefix
- 在此处设置视频输出文件名。添加“/”将创建文件夹。示例:“mmAud/mmaudio”。
视频将保存至“🗂️:ComfyUI/output/mmAud/”,文件名为“mmaudio_00001-audio.mp4”。ComfyUI 将自动在文件名末尾添加编号系统,并在文件末尾添加“-audio”以表明该视频包含音频。所有生成的视频都将保存至 🗂️:ComfyUI/output。
save_metadata
- 启用后,将在 ▷RUN 时保存工作流状态。将带有已保存元数据的输出视频拖放到 ComfyUI 中,即可加载该视频对应的所有输入/状态。
- 禁用后,将清空工作流元数据。
💡当保存带音频的视频时,视频合成节点将生成 3 个输出文件(带音频的视频、仅视频、第一帧)。
为减少输出文件夹的杂乱:
进入 ComfyUI 设置。
在左侧找到 🎥🅥🅗🅢 并选择它。
禁用:(右侧前两项)
"成功执行后保留必需的中间文件"(此选项会在生成带音频的视频时保存无音频的视频版本。禁用后,仅保存带音频的视频,无需担心。)
"为元数据保存第一帧 PNG"(若你已禁用上述 save_metadata,可启用此项,以便从第一帧 PNG 中恢复工作流。)
🎞️ 📐🦄💾选项
💡在草拟音频/音乐时,可禁用这些选项。

🎞️插值倍率(启用/禁用)
- 帧插值通过在原始视频帧之间插入新帧,使视频更流畅。
- 3-4x 倍率 = 非常流畅。
- 2x 倍率 = 略微流畅,具有电影感。
- 插值倍率 = 在原始视频帧之间插入多少帧。
- 5秒视频 - 81帧,使用 4x 倍率,最终将得到 321 帧。
- 5秒视频 - 81帧,使用 3x 倍率,最终将得到 241 帧。📐超分器(启用/禁用)
通过放大倍率调整最终视频输出尺寸。
示例:720x960 - 1.5x = 1080x1440 - 2x = 1440x1920🦄Logo 图层叠加(启用/禁用)
- 为你的视频添加 Logo 或水印。💾保存输出?(启用/禁用)
- 启用并点击 ▷RUN 以保存你使用的视频+音频结果。
💡在草拟阶段可先禁用此项,以减少输出文件夹的杂乱。
💡或者,你也可以保持启用(若你容易忘记),然后自行清理输出文件夹。
🦄Logo 叠加(水印)

启用以对视频添加水印。
将你的 Logo/水印图片拖放至此处。
支持带有透明背景的图片。选择 Logo/水印的位置。
缩放 Logo/水印的大小。
透明度 - 调整 Logo/水印的不透明度。
旋转 - 如需倾斜 Logo/水印。
内边距 X - Logo/水印距水平边界的偏移量。
内边距 Y - Logo/水印距垂直边界的偏移量。
其余设置保持默认即可。
🧩自定义节点:
rgthree-comfy
ComfyUI-East-Use
ComfyUI-KJNodes
ComfyUI-VideoHelpSuite
ComfyUI-Frame-Interpolation
ComfyUI-mxToolkit
WhiteRabbit
ComfyUI-MMAudio
