🎼MMAudio + 🎹ACE-Step (Music/Song Gen) Workflow for Videos

详情

模型描述

🤡 我倾向于过度复杂化工作流程。(视为高级版本)
如需更简单的版本,请使用以下内容:
参考与致谢:
🔗(NSFW) 非常简单的 MMAudio + RIFE 插值设置,适用于 WAN 2.2 I2V
😀SeoulSeeker(CivitAI)

🪁 我在折腾 MMAudio,于是决定把这套工作流放在这里。


  • 12/12/25 - 添加了带 ACE-Step 的工作流(音乐/歌曲生成)

    • 修复了从视频中提取音频的问题。

⚠️ 需要 8 个自定义节点
⚠️ 子图
⚠️ 仅在 ComfyUI 桌面版中测试通过
✅ 面向 UI 的工作流
✅ 从视频上传音频
✅ 从文件上传音频
✅ 支持两个 MMAudio 用于声音/音乐生成
✅ 音量控制
✅ 支持超分辨率和/或帧插值
✅ 水印/Logo(随 Video FPS 重采样节点(White Rabbit)一同提供,不如直接用)
✅ 精简工作流
‼️ 自定义节点 ComfyUI-Swwan 可能导致工作流出现问题。(请确保已卸载,它与工作流中的某些开关存在冲突)
‼️ 禁用 "Node 2.0"。

🎹 可组合所有选定选项(从视频上传音频、从文件上传音频、MMAudio 1、MMAudio 2、ACE-Step)

💡 建议使用未经插值的视频,速度更快。但你仍可使用任意帧率的插值视频,只是可能较慢。

⚠️ 如果你的视频被放大至高分辨率,可能导致内存溢出。
⚠️ 在本工作流中进行视频插值时,输出帧率固定,以避免混淆和复杂化。(更改 FPS = 改变持续时间 = 影响 MMAudio)

💡 更推荐使用其他音频文件作为背景音乐(BGM),而非依赖 MMAudio。
(我使用 ACE-Step 生成 BGM)
MMAudio 对视频反应非常敏感,因此不太擅长生成音乐。例如:视频中的转场可能会破坏音乐的流畅性。有时这种断裂反而效果不错,或一个微笑可能触发恐怖电影的音效。有时节奏或旋律会跟随视频中的动作变化。
偶尔我会用 MMAudio 生成 BGM,但需要大量尝试。

📼上方发布的视频包含嵌入式工作流。(下载视频,拖入 ComfyUI)
需要 ComfyUI-VideoHelpSuite 自定义节点 才能在 ComfyUI 中从视频打开工作流。


⌨️使用方法:

  1. 将你的视频拖拽到 “📲模型加载器与视频上传” 子图中

  2. 在每个模块顶部启用所需选项。

  3. 为 🎼MMAudio 编写简单提示词,或上传音乐文件,或使用来自视频的音频。

    • 3a. 点击 "🎲新固定随机" 为 🎼MMAudio 生成新声音。
  4. ▷运行

  5. 在 "🎥🎼视频合成" 中预览视频

  6. 如果你希望从 🎼MMAudio 生成新声音,请重复 3a. 并点击 ▷运行

  7. 选择 "🎞️帧插值"、"📐超分辨率" 和/或 ":💾保存输出",然后 ▷运行


💿安装 ComfyUI-MMAudio

1. Git 克隆

进入你的 ComfyUI 自定义节点目录。
🗂️ ComfyUI\custom_nodes

Windows:
将 ComfyUI-MMAudio 克隆到该目录中。
在目录中右键,选择“打开终端”,输入:

git clone https://github.com/kijai/ComfyUI-MMAudio.git

2. 安装

桌面版:
打开 ComfyUI,
点击 ComfyUI 中的 "🧩Manager"。

点击 "安装缺失的自定义节点"。

对 ComfyUI-MMAudio 选择 "尝试修复"。
重启 ComfyUI。

便携版:
进入你的 "python_embedded" 文件夹。
在目录中右键,选择“打开终端”,输入:

python.exe -m pip install -r ComfyUI\custom_nodes\ComfyUI-MMAudio\requirements.txt

📥MMAudio 模型/文件下载链接

⚠️ 在 "🗂️: ComfyUI/models/" 文件夹中创建一个名为 "mmaudio" 的文件夹,并将所有文件放入其中。

🗂️: ComfyUI/models/mmaudio

📐超分辨率模型 下载链接

📐2x 超分辨率模型
🗂️: ComfyUI/models/upscale_models
(建议使用 2x 超分模型;也可使用 4x 模型,但耗时更长)

🎹ACE-Step 模型下载链接

加载工作流时,ComfyUI 会提示缺少模型。你可以直接从 ComfyUI 下载,或使用以下链接:
🎹 ace_step_v1_3.5b.safetensors
🗂️: ComfyUI/models/checkpoints


🗺️指南

📲模型加载器与视频上传

  1. 🎥从视频提取音频

    • 启用:使用上传视频的音频。
    • 禁用:仅使用上传视频,忽略音频。
  2. 📲模型加载器与视频上传
    - 将视频拖入子图上传,下方会显示视频预览;将鼠标悬停在预览上,可听到音频(如有)。

  3. 📐超分辨率模型 - 在此处选择你的超分模型。

  4. MMAudio synchformer_model - mmaudio_synchformer_fp16.safetensors

  5. MMAudio vae_model - mmaudio_vae_44k_fp16.safetensors

  6. MMAudio clip_model - apple_DFN5B-CLIP-ViT-H-14-384_fp16.safetensors

  7. 选择要上传的视频 - 你也可以点击此处打开窗口选择视频,或直接拖拽视频到该子图中。

  8. 音量(⚠️本节点预览不反映调整后的音量)
    - 设置视频音频的音量(十进制数值)
    - 1 = 默认
    - 负数 = 降低音量(例如 -6)
    - 大于 1 = 提高音量

📤从文件夹加载音频

⚠️你必须点击 "选择要上传的文件" 才能上传音频/视频文件。
要上传带音频的视频(仅提取音频)或 mp3 文件,请选择 "所有文件(*.*)"。

  1. 📤从文件夹加载音频

    • 启用:使用文件夹中的音频文件。
  2. 📤加载音频

    • 选择要上传的文件 - 点击此处上传音频文件或含音频的视频。

    • 音频预览(顶部) - 仅在上传音频文件后显示,可预览完整音频长度。

    • 音频起始时间 - 输入音频开始的秒数。
      0 = 从头开始。
      若设为 6.50,则会截掉 6.5 秒前的所有内容。
      结束时间将根据视频时长自动裁剪。

    • 音量 - 设置音频音量(十进制数值)
      1 = 默认,
      负数 = 降低音量(例如 -6),
      大于 1 = 提高音量

    • 音频预览(底部) - 仅在工作流 ▷运行 后显示。可预览裁剪并调整音量后的音频。
      💡点击 "⋮ "(三个点),可选择保存裁剪后的音频。

    • 视频预览 - 仅在工作流 ▷运行 后显示。可预览所用视频 + 已调整音量的上传音频。将鼠标悬停在视频预览上即可听到音频。

🎹ACE-Step

ACE Step 使用标准 KSampler 生成音乐。如需更改采样器或调度器,可进入子图调整。

  1. 🎹ACE-Step

    • 启用:使用 **🎹**ACE-Step。
  2. ckpt_name: ace_step_v1_3.5b.safetensors

  3. Shift & Steps - 可保持默认,除非你想尝试调整。

  4. 人声音量 - 如有演唱,提高人声音量。
    ⚠️即使无演唱或仅为纯音乐,也必须设为 1。

  5. 秒数 - 歌曲/音乐时长。(推荐 60 秒
    ⚠️至少 20-30 秒。建议时长更长,之后再设定音乐起始点。若时长过短(5-10 秒太短),ACE-Step 将无法正常生成。

  6. 音频预览(顶部) - 仅在工作流 ▷运行 后显示,可预览 ACE-Step 生成的完整歌曲。
    💡点击 "⋮ "(三个点),可选择保存生成的歌曲/音乐。
    💡用此功能寻找你希望音乐开始的位置。

  7. 🎲新固定随机 & 种子 - 点击并 ▷运行,以获得新的种子生成新歌曲。

  8. 音频起始时间 - 输入音频开始的秒数。
    0 = 从头开始。
    若设为 6.50,则会截掉 6.5 秒前的所有内容。
    结束时间将根据视频时长自动裁剪。

  9. 音量 - 设置音频音量(十进制数值)
    1 = 默认,
    负数 = 降低音量(例如 -6),
    大于 1 = 提高音量

  10. 音频预览(底部) - 仅在工作流 ▷运行 后显示。可预览裁剪并调整音量后的音频。
    💡点击 "⋮ "(三个点),可选择保存裁剪后的音频。

  11. ACE-Step 正向提示词 - 编写音乐风格、乐器、类型或情绪的提示词。

  12. ACE-Step 音乐结构/歌词提示词 - 构建歌曲并添加歌词,或设为纯音乐。
    💡更多提示词与结构示例,请访问: https://ace-step.github.io/

  13. 视频预览 - 仅在工作流 ▷运行 后显示。可预览所用视频 + 生成的 ACE-Step 音乐/歌曲(已调整音量)。将鼠标悬停在视频预览上即可听到音频。

🎼第一与第二 MMAudio

  1. 🎼第一/第二 MMAudio

    • 启用:使用 MMAudio。
  2. 🎼MMAudio

    • mmaudio_model - 在此处选择/切换 MMAudio 模型。

    • steps - 50 步即可获得足够质量且速度很快。

    • 正向提示词(顶部)与负向提示词(底部)

      - 在此处编写提示词,可保持简洁,几个词或标记即可。若音频未生成所需内容,可添加正向提示;若出现不想要的声音,可添加负向提示。

      - 示例:

      若视频中只有人弹吉他,但没有鼓声,可在提示中加入:"drums" 或 "drums, snare"。

      若不希望出现人声,可在负向提示中加入 "vocals"。
      -⚠️效果并非完美,可能需要多次尝试。
      -(别问我提示词怎么写,我仍在摸索哪些有效,哪些是安慰剂效应。)

    • 音量 - 设置音频音量(十进制数值)
      1 = 默认,
      负数 = 降低音量(例如 -6),
      大于 1 = 提高音量

    • 音频预览 - 仅在工作流 ▷运行 后显示。可预览生成的 MMAudio 音频(已调整音量)。
      💡点击 "⋮ "(三个点),可选择保存生成的音频。

    • 🎲新固定随机 & 种子 - 点击并 ▷运行,以获得新的种子生成新音频。

    • 视频预览 - 仅在工作流 ▷运行 后显示。可预览所用视频 + 生成的 MMAudio 音频(已调整音量)。将鼠标悬停在视频预览上即可听到音频。

🎥🎼视频合成

预览视频 + 合成音频(使用或生成)的输出效果。

  1. filename_prefix
    - 在此处设置视频输出文件名。添加“/”将创建文件夹。

    示例:“mmAud/mmaudio”。
    视频将保存至“🗂️:ComfyUI/output/mmAud/”,文件名为“mmaudio_00001-audio.mp4”。ComfyUI 将自动在文件名末尾添加编号系统,并在文件末尾添加“-audio”以表明该视频包含音频。

    所有生成的视频都将保存至 🗂️:ComfyUI/output。

  2. save_metadata
    - 启用后,将在 ▷RUN 时保存工作流状态。将带有已保存元数据的输出视频拖放到 ComfyUI 中,即可加载该视频对应的所有输入/状态。
    - 禁用后,将清空工作流元数据。

💡当保存带音频的视频时,视频合成节点将生成 3 个输出文件(带音频的视频、仅视频、第一帧)。
为减少输出文件夹的杂乱:
进入 ComfyUI 设置。
在左侧找到 🎥🅥🅗🅢 并选择它。
禁用:(右侧前两项)

  • "成功执行后保留必需的中间文件"(此选项会在生成带音频的视频时保存无音频的视频版本。禁用后,仅保存带音频的视频,无需担心。)

  • "为元数据保存第一帧 PNG"(若你已禁用上述 save_metadata,可启用此项,以便从第一帧 PNG 中恢复工作流。)

🎞️ 📐🦄💾选项

💡在草拟音频/音乐时,可禁用这些选项。

  1. 🎞️插值倍率(启用/禁用)
    - 帧插值通过在原始视频帧之间插入新帧,使视频更流畅。
    - 3-4x 倍率 = 非常流畅。
    - 2x 倍率 = 略微流畅,具有电影感。
    - 插值倍率 = 在原始视频帧之间插入多少帧。
    - 5秒视频 - 81帧,使用 4x 倍率,最终将得到 321 帧。
    - 5秒视频 - 81帧,使用 3x 倍率,最终将得到 241 帧。

  2. 📐超分器(启用/禁用)
    通过放大倍率调整最终视频输出尺寸。
    示例:720x960 - 1.5x = 1080x1440 - 2x = 1440x1920

  3. 🦄Logo 图层叠加(启用/禁用)
    - 为你的视频添加 Logo 或水印。

  4. 💾保存输出?(启用/禁用)
    - 启用并点击 ▷RUN 以保存你使用的视频+音频结果。
    💡在草拟阶段可先禁用此项,以减少输出文件夹的杂乱。
    💡或者,你也可以保持启用(若你容易忘记),然后自行清理输出文件夹。

🦄Logo 叠加(水印)

启用以对视频添加水印。

  • 将你的 Logo/水印图片拖放至此处。
    支持带有透明背景的图片。

  • 选择 Logo/水印的位置

  • 缩放 Logo/水印的大小。

  • 透明度 - 调整 Logo/水印的不透明度。

  • 旋转 - 如需倾斜 Logo/水印。

  • 内边距 X - Logo/水印距水平边界的偏移量。

  • 内边距 Y - Logo/水印距垂直边界的偏移量。

  • 其余设置保持默认即可。


🧩自定义节点:

  • rgthree-comfy

  • ComfyUI-East-Use

  • ComfyUI-KJNodes

  • ComfyUI-VideoHelpSuite

  • ComfyUI-Frame-Interpolation

  • ComfyUI-mxToolkit

  • WhiteRabbit

  • ComfyUI-MMAudio

此模型生成的图像

未找到图像。