Wan.Humo Music Video Automation Workflow.
세부 정보
파일 다운로드
모델 설명
🎬 AI 음악 비디오 워크플로우(ComfyUI)
당신의 좋아하는 트랙을 완전히 AI로 생성된 영화 같은 음악 비디오로 변환하세요 — ComfyUI 내에서 자동으로, 추가 편집 불필요.
이 워크플로우는 참조 이미지와 오디오 파일을 입력받아, 가사, 분위기, 장면 역동성에 맞춰 입술 동기화된 비디오를 생성하며, 95% 이상 자동화됩니다.
어떤 이유에서인지 예시 비디오가 모든 사용자에게 표시되지 않으므로, 모든 예시는 여기서 확인하실 수 있습니다: https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy
상세한 개요는 다음에서 확인하세요: https://youtu.be/ggZATYEe-d4
도움이 필요하거나 질문이 있나요? Discord를 통해 문의해 주세요
✨ 기능 설명
🎭 모든 장면에서 참조 이미지를 주 연기자로 유지합니다.
🎶 오디오를 가사 동기화된 짧은 클립으로 분할하여 정확한 타이밍을 구현합니다.
🖋️ 커스텀 프롬프트 생성 노드를 사용하여, 가사와 스타일 선택을 바탕으로 LLM 노드에 맞춤 지시를 전달해 영화적 프롬프트를 생성합니다.
🎥 장면별 시각적 요소를 생성한 후, 부드럽게 결합하여 최종 비디오를 완성합니다.
제공한 샘플은 모두 ComfyUI 내에서 추가 편집 없이 생성되었습니다.
5090 GPU 기준 전체 곡 생성에 약 2시간이 소요되었습니다.
더 많은 예시는 여기서 확인 가능합니다: https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy — 향후 추가 예시도 계속 업로드할 예정입니다.
🔧 핵심 기능
참조 이미지 제어 – 캐릭터 사진(추천: 얼굴 사진)을 업로드하면 자동으로 배경을 제거하고 클리프 프레임에 맞게 조정합니다.
오디오 처리 – 자동 보컬/악기 분리, Whisper V3 텍스트 변환, 가사 중복 설정 및 백업 옵션을 포함한 고급 설정.
프롬프트 생성기 – 스타일, 테마, 조명, 카메라 움직임, 복장 등 다양한 항목을 설정할 수 있는 유연한 장면 빌더로 맞춤형 외관을 생성합니다.
자동 큐잉 – 긴 오디오 파일에 대한 여러 렌더링을 부드럽게 처리합니다.
최종 렌더 자동화 – 모든 비디오 조각을 수집해 병합하고, 완성된 비디오를
FINAL_VIDEO.mp4로 저장합니다.이 워크플로우는 기본적으로 네이티브 Gemini LLM API 노드를 사용하며, 이 노드는 프롬프트 생성기 노드에서 생성된 상세한 지시를 수신합니다. 원하시는 경우 Gemini를 다른 LLM으로 교체할 수 있으나, 지시문이 매우 복잡하여 대부분의 로컬 모델은 신뢰성 있게 따르기 어렵습니다. LLM을 전혀 사용하지 않으려면 프롬프트를 수동으로 입력할 수 있습니다. 이 경우 Discord에서 추가 가이드와 팁을 요청해 주세요. 참고로 저는 지금까지 단 $5만 사용해 50개 이상의 비디오를 생성했으며, 여전히 잔액이 남아 있어 비용 효율성이 매우 뛰어납니다.
🚀 빠른 시작
참조 이미지 업로드
오디오 파일 로드
폴더 이름 설정 (예: 곡 제목)
프롬프트 생성기 필드 입력 (스타일, 분위기, 샷 등)
Run 클릭 — 나머지는 모두 자동화됩니다.
워크플로우는 긴 오디오 파일에 대해 중간 렌더를 자동으로 큐잉합니다.
최종 렌더 단계에서는 어떤 그룹을 음소거해야 할지 안내합니다.
화면 지시에 따라 단순히 다시 Run을 클릭하면 워크플로우가 자동으로 완료됩니다. (렌더 진행을 기다릴 필요 없으며, 음소거 후 한 번 더 Run만 누르면 됩니다.)
🎵 창의적 워크플로우 팁
실제 음악 비디오처럼, 한 번의 렌더만 고집할 필요 없습니다. 같은 오디오 파일을 다른 참조 이미지나 스타일로 여러 번 실행할 수 있습니다. 예를 들어:
한 번은 메인 보컬을 연기자로 설정
다른 한 번은 밴드 멤버 또는 조연 캐릭터로 설정
추가로 다른 테마, 복장, 카메라 스타일을 실험
나중에 이 각각의 렌더 결과를 편집하여 서로 연결하거나, 분위기를 혼합할 수 있습니다 — 이는 전문 음악 비디오 제작에서 다중 테이크를 사용하는 방식과 정확히 동일합니다.
📦 필요 커스텀 노드
이 워크플로우는 이 워크플로우 전용으로 개발한 커스텀 노드 세트에 의존합니다.
워크플로우를 실행하기 전에 반드시 설치해야 합니다:
👉 ComfyUI-VRGameDevGirl 커스텀 노드 (GitHub)
이 노드들은 매니저를 통해 설치할 수도 있습니다.
이 노드들은 다음을 처리합니다:
오디오 분할, 텍스트 변환 및 자동 큐잉
스마트 폴더 관리 및 메타데이터 추적
멀티 런 프로젝트를 위한 팝업 지시
HuMo 호환을 위한 장면 동기화 및 프레임 조정
비디오 병합 등
👉 지원, 팁 및 트릭을 위해 디스코드 커뮤니티에 참여하세요.
✅ 요약
이 워크플로우는 AI 시각 요소와 음악을 융합하고자 하는 창작자, 뮤지션, 시각적 스토리텔러를 위해 설계되었습니다. 자동 텍스트 변환, 스마트 프롬프트 처리, 부드러운 비디오 결합 기능을 통해, 창의적 방향성에 집중하면서도 워크플로우가 모든 복잡한 작업을 처리합니다.
