🎬 AI音楽ビデオワークフロー（ComfyUI）

お気に入りの曲を、ComfyUI内で完全にAI生成されたシネマティックな音楽ビデオに変換しましょう——事後編集は一切不要。
このワークフローはリファレンス画像とオーディオファイルを入力し、歌詞・ムード・シーンのダイナミクスに合わせてリップシンクされた動画を95％自動で生成します。

何らかの理由で、例の動画が誰にも表示されないため、すべての動画はこちらでご確認ください：https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy

ハイレベルなウォークスルーはこちら：https://youtu.be/ggZATYEe-d4

サポートが必要な場合や質問がある場合は、Discordでご連絡ください。

✨ こんなことが可能です

🎭 全てのシーンでリファレンス画像を主役として維持します。
🎶 オーディオを歌詞に同期したスニペットに分割し、完璧なタイミングで再生します。
🖋️ カスタムプロンプト作成ノードがLLMノードにカスタム指示を送り、歌詞とスタイルの選択からシネマティックなプロンプトを生成します。
🎥 シーンごとにビジュアルを生成し、シームレスな最終動画に統合します。

私が提供したサンプルはすべてComfyUI内で事後編集なしで作成されています。

5090 GPUでは、全曲の処理に約2時間かかりました。

さらに多くの例はこちらでご覧いただけます：https://youtube.com/playlist?list=PLQ0zxAQhttlZpolPMJTeQQjafa__MaD2v&si=jv-gu7hMONsuMwvy。今後も追加予定です。

🔧 主な機能

リファレンス画像制御 – キャラクターの写真（顔写真推奨）をインポートすると、自動で背景を除去し、クリーンなフレーミングにリサイズします。
オーディオ処理 – 自動的なボーカル・楽器分離、Whisper V3による音声認識、歌詞の重複設定とフォールバックオプションを備えています。
プロンプト作成器 – スタイル、テーマ、照明、カメラムーブメント、衣装など、カスタムのビジュアルを実現する柔軟なシーンビルダー。
自動キュー処理 – 長いオーディオファイルに対してもマルチランの動画をスムーズに処理します。
最終レンダリング自動化 – すべての動画チャンクを収集し、統合してFINAL_VIDEO.mp4として保存します。
このワークフローはデフォルトでネイティブなGemini LLM APIノードを使用し、プロンプト作成ノードが生成した詳細な指示を受け取ります。好みに応じて他のLLMに置き換えることも可能ですが、指示内容は非常に複雑で、ほとんどのローカルモデルでは正しく実行できません。LLMを使わずに手動でプロンプトを入力することも可能です——その場合はDiscordで追加のガイドやヒントをご相談ください。参考までに、私はこれまでにわずか$5しか使っておらず、50本以上の動画を生成し、まだクレジットが残っています。非常にコスト効率が高いです。

🚀 すぐに始めるには

リファレンス画像をアップロード
オーディオファイルを読み込む
フォルダ名を設定（例：曲名）
プロンプト作成フィールドを入力（スタイル、ムード、ショットなど）
「Run」をクリック——残りはすべて自動処理されます。
- 長いオーディオファイルの場合、ワークフローは中間ランを自動キューします。
- 最終段階では、どのグループをミュートすべきかを案内します。
- 画面の指示に従い、もう一度「Run」をクリックするだけで、ワークフローが自動で完了します。（各ランの終了を待つ必要はありません。ミュートして再びRunをクリックするだけです。）

🎵 創作ワークフローヒント

リアルな音楽ビデオと同様に、1回の実行にとどまる必要はありません。同じオーディオファイルを、異なるリファレンス画像やスタイルで複数回実行できます。たとえば：

主唱者を主役とした1回目の実行。
バンドメンバーやサブキャラクターを主役とした2回目の実行。
異なるテーマ・衣装・カメラスタイルを試す追加実行。

これらを後で編集して、パフォーマンスを切り替えたり、ビジュアルムードをブレンドしたりすれば、プロフェッショナルな音楽ビデオ制作と同じ手法で完成させられます。

📦 必要なカスタムノード

このワークフローは、このワークフロー専用に私が開発したカスタムノードに依存しています。
実行前にインストールが必要です：

👉 ComfyUI-VRGameDevGirl カスタムノード (GitHub)

これらは、マネージャー経由でインストールすることも可能です。

これらのノードは以下の機能を担います：

オーディオ分割、音声認識、自動キュー
スマートなフォルダ管理とメタデータ追跡
マルチランプロジェクト向けのポップアップ指示
HuMo互換性のためのシーン同期とフレーム調整
動画統合など

👉 サポート・ヒント・コツを得るためにDiscordコミュニティに参加してください。

✅ まとめ

このワークフローは、AIビジュアルと音楽を融合させたいクリエイター、ミュージシャン、ビジュアルストーリーテラーのために設計されています。自動音声認識、スマートプロンプト処理、シームレスな動画統合により、あなたはクリエイティブな方向性に集中でき、重労働はワークフローが自動で処理します。

モデルタイプ	ワークフロー
ベースモデル	Other
公開日	10/23/2025

Wan.Humo Music Video Automation Workflow.

詳細

ファイルをダウンロード

モデル説明