Wan.Humo Music Video Automation Workflow.
详情
下载文件
模型描述
🎬 AI 音乐视频工作流(ComfyUI)
将您最爱的曲目转化为完全由 AI 生成的电影级音乐视频——直接在 ComfyUI 中自动完成,无需后期编辑。
此工作流使用一张参考图像和一个音频文件,生成与歌词、情绪和场景动态同步的唇形对口型视频,自动化程度高达 95%。
不知为何,示例视频对任何人皆无法显示,您可在此处查看所有示例:https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy
高级流程指南请见:https://youtu.be/ggZATYEe-d4
需要帮助或有疑问?请通过 Discord 联系我们
✨ 功能概览
🎭 在所有场景中保留您的参考图像作为主要表演者。
🎶 将音频分割为与歌词同步的片段,实现精准节奏匹配。
🖋️ 使用自定义提示生成节点,向 LLM 节点发送定制指令,根据歌词和您的风格选择生成电影级提示。
🎥 逐场景生成视觉内容,最终无缝合并为完整视频。
我提供的所有示例均在 ComfyUI 中创建,未进行任何后期编辑。
在 5090 显卡上,完整歌曲生成耗时约 2 小时。
更多示例请见:https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy,我将持续更新。
🔧 核心功能
参考图像控制——导入您的角色照片(建议使用正面头像),系统自动去除背景并调整尺寸以获得整洁构图。
音频处理——自动分离人声与乐器,使用 Whisper V3 转录,支持歌词重叠高级设置及备用方案。
提示生成器——灵活的场景构建器,提供风格、主题、灯光、镜头运动、服装等字段,定制专属视觉效果。
自动队列处理——无缝处理长音频文件的多段生成。
最终渲染自动化——收集所有视频片段,合并后自动保存为
FINAL_VIDEO.mp4。本工作流默认使用原生 Gemini LLM API 节点,接收由提示生成器节点输出的详细指令。您可替换为其他 LLM,但指令集较为复杂,多数本地模型难以稳定执行。若不想使用 LLM,也可手动输入提示——请联系 Discord 获取额外指导。作为参考,我至今仅花费约 5 美元,已生成 50 多个视频,仍有余额,成本极低。
🚀 快速开始
上传参考图像
加载您的音频文件
设置文件夹名称(例如歌曲标题)
填写提示生成器字段(风格、情绪、镜头等)
点击运行——其余全部自动完成。
对于长音频文件,工作流将自动排队中间运行阶段。
在最终运行阶段,系统会告知您需要静音的组别。
只需按照屏幕指示,再次点击运行,工作流将自动完成后续流程。(无需等待每个阶段结束,只需静音并再次点击运行即可。)
🎵 创意工作流小贴士
如同真实音乐视频制作,您无需局限于单次生成。您可以多次使用同一音频文件,搭配不同参考图像或风格,例如:
一次以主唱作为表演者。
另一次以乐队成员或配角为主角。
再次尝试不同主题、服装或镜头风格。
之后,您可将这些独立视频片段编辑合并,在不同表演间切换或融合视觉情绪——这正是专业音乐视频通过多镜头拍摄的制作方式。
📦 所需自定义节点
本工作流依赖于我专为此流程开发的一组自定义节点。
运行前请先安装:
👉 ComfyUI-VRGameDevGirl 自定义节点(GitHub)
也可通过节点管理器安装。
这些节点负责:
音频分割、转录与自动排队
智能文件夹管理与元数据追踪
多阶段项目的弹出式操作指引
场景同步与 HuMo 兼容的帧调整
视频合并等
✅ 总结
本工作流专为创作者、音乐人和视觉叙事者设计,助您将AI 视觉与音乐完美融合。凭借自动转录、智能提示处理与无缝视频合成,您可专注于创意方向,而让工作流承担繁重的技术任务。
