Wan.Humo Music Video Automation Workflow.
详情
下载文件
模型描述
🎬 AI 音乐视频工作流(ComfyUI)
将你最爱的歌曲转化为完全由 AI 生成的电影级音乐视频——直接在 ComfyUI 中自动完成,无需后期编辑。
此工作流输入一张参考图像和一个音频文件,即可生成与歌词、情绪和场景动态同步的唇形对口型视频,自动化程度高达 95%。
不知为何,大部分示例视频未能显示,推测是因为视频过长。你可以在以下链接找到所有示例:https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy
高级操作指南请见:https://youtu.be/ggZATYEe-d4
需要帮助或有疑问?请通过 Discord 联系我
✨ 功能说明
🎭 在所有场景中保持你的参考图像作为主要表演者。
🎶 将音频拆分为与歌词同步的片段,实现精准节奏匹配。
🖋️ 使用自定义提示生成节点,向 LLM 节点发送定制指令,根据歌词和你的风格选择生成电影级提示。
🎥 逐场景生成视觉画面,最终无缝拼接为完整视频。
我提供的所有示例均在 ComfyUI 内完全自动生成,无任何后期编辑。
在 5090 显卡上,完整歌曲处理耗时约 2 小时。
更多示例请见:https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy,后续还将持续更新。
🔧 核心功能
参考图像控制——导入你的角色照片(建议使用头像),自动去除背景并调整尺寸以获得清晰构图。
音频处理——自动分离人声与伴奏,使用 Whisper V3 进行转录,支持歌词重叠高级设置及备用方案。
提示生成器——灵活的场景构建器,可设置风格、主题、灯光、镜头运动、服装等参数,实现个性化视觉效果。
自动队列处理——无缝处理长音频文件的多段生成任务。
最终渲染自动化——收集所有视频片段,合并并保存为
FINAL_VIDEO.mp4。此工作流默认使用原生 Gemini LLM API 节点,接收由提示生成器节点生成的详细指令。你可替换为其他 LLM,但指令集较为复杂,多数本地模型难以稳定遵循。若你希望完全不使用 LLM,也可手动输入提示——请联系 Discord 获取额外指导。据我统计,截至目前仅花费约 5 美元,已生成 50 多个视频,仍有余额,成本极低。
🚀 快速入门
上传参考图像
加载你的音频文件
设置文件夹名称(例如歌曲标题)
填写提示生成器参数(风格、情绪、镜头等)
点击运行——其余全部自动化处理。
对于长音频文件,工作流会自动排队中间生成步骤。
在最终合成阶段,它会提示你哪些组需要静音。
按照屏幕指示操作,再次点击运行,工作流将自动完成剩余流程。(无需等待每一步完成,只需静音后再次运行即可。)
🎵 创意工作流小贴士
就像真实音乐视频制作一样,你不必局限于单次生成。你可以多次运行同一音频文件,使用不同的参考图像或风格,例如:
一次以主唱为表演者。
另一次以乐队成员或配角为主角。
再次尝试不同主题、服装或镜头风格。
之后,你可以将这些独立生成的视频片段剪辑合并,在不同表演间切换或融合视觉情绪——这正是专业音乐视频通过多轮拍摄制作的标准流程。
📦 所需自定义节点
此工作流依赖于我为本项目专门开发的一组自定义节点。
运行前请先安装:
👉 ComfyUI-VRGameDevGirl 自定义节点(GitHub)
也可通过节点管理器安装。
这些节点负责:
音频分割、转录与自动排队
智能文件夹管理与元数据追踪
多次运行项目的弹出式操作指引
场景同步与 HuMo 兼容的帧调整
视频合并等
✅ 总结
本工作流专为创作者、音乐人与视觉叙事者设计,助你将AI 视觉与音乐完美融合。凭借自动转录、智能提示生成与无缝视频合成,你可以专注于创意方向,而让工作流承担繁重的技术任务。
