Wan.Humo Music Video Automation Workflow.

详情

下载文件

模型描述

🎬 AI 音乐视频工作流(ComfyUI)

将你最爱的歌曲转化为完全由 AI 生成的电影级音乐视频——直接在 ComfyUI 中自动完成,无需后期编辑
此工作流输入一张参考图像和一个音频文件,即可生成与歌词、情绪和场景动态同步的唇形对口型视频,自动化程度高达 95%。

不知为何,大部分示例视频未能显示,推测是因为视频过长。你可以在以下链接找到所有示例:https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy

高级操作指南请见:https://youtu.be/ggZATYEe-d4

需要帮助或有疑问?请通过 Discord 联系我


✨ 功能说明

  • 🎭 在所有场景中保持你的参考图像作为主要表演者。

  • 🎶 将音频拆分为与歌词同步的片段,实现精准节奏匹配。

  • 🖋️ 使用自定义提示生成节点,向 LLM 节点发送定制指令,根据歌词和你的风格选择生成电影级提示。

  • 🎥 逐场景生成视觉画面,最终无缝拼接为完整视频。

我提供的所有示例均在 ComfyUI 内完全自动生成,无任何后期编辑

在 5090 显卡上,完整歌曲处理耗时约 2 小时。

更多示例请见:https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy,后续还将持续更新。


🔧 核心功能

  • 参考图像控制——导入你的角色照片(建议使用头像),自动去除背景并调整尺寸以获得清晰构图。

  • 音频处理——自动分离人声与伴奏,使用 Whisper V3 进行转录,支持歌词重叠高级设置及备用方案。

  • 提示生成器——灵活的场景构建器,可设置风格、主题、灯光、镜头运动、服装等参数,实现个性化视觉效果。

  • 自动队列处理——无缝处理长音频文件的多段生成任务。

  • 最终渲染自动化——收集所有视频片段,合并并保存为 FINAL_VIDEO.mp4

  • 此工作流默认使用原生 Gemini LLM API 节点,接收由提示生成器节点生成的详细指令。你可替换为其他 LLM,但指令集较为复杂,多数本地模型难以稳定遵循。若你希望完全不使用 LLM,也可手动输入提示——请联系 Discord 获取额外指导。据我统计,截至目前仅花费约 5 美元,已生成 50 多个视频,仍有余额,成本极低。


🚀 快速入门

  1. 上传参考图像

  2. 加载你的音频文件

  3. 设置文件夹名称(例如歌曲标题)

  4. 填写提示生成器参数(风格、情绪、镜头等)

  5. 点击运行——其余全部自动化处理。

    • 对于长音频文件,工作流会自动排队中间生成步骤

    • 在最终合成阶段,它会提示你哪些组需要静音

    • 按照屏幕指示操作,再次点击运行,工作流将自动完成剩余流程。(无需等待每一步完成,只需静音后再次运行即可。)


🎵 创意工作流小贴士

就像真实音乐视频制作一样,你不必局限于单次生成。你可以多次运行同一音频文件,使用不同的参考图像或风格,例如:

  • 一次以主唱为表演者。

  • 另一次以乐队成员或配角为主角。

  • 再次尝试不同主题、服装或镜头风格

之后,你可以将这些独立生成的视频片段剪辑合并,在不同表演间切换或融合视觉情绪——这正是专业音乐视频通过多轮拍摄制作的标准流程。


📦 所需自定义节点

此工作流依赖于我为本项目专门开发的一组自定义节点
运行前请先安装:

👉 ComfyUI-VRGameDevGirl 自定义节点(GitHub)

也可通过节点管理器安装。

这些节点负责:

  • 音频分割、转录与自动排队

  • 智能文件夹管理与元数据追踪

  • 多次运行项目的弹出式操作指引

  • 场景同步与 HuMo 兼容的帧调整

  • 视频合并等


👉 加入 Discord 社区获取支持、技巧与建议。


✅ 总结

本工作流专为创作者、音乐人与视觉叙事者设计,助你将AI 视觉与音乐完美融合。凭借自动转录、智能提示生成与无缝视频合成,你可以专注于创意方向,而让工作流承担繁重的技术任务。

此模型生成的图像

未找到图像。