(NSFW) Dead-Simple MMAudio + RIFE Interpolation Setup for WAN 2.2 I2V 14B
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
変更履歴
バージョン 1.0.1: RIFE Group の出力が誤って 8fps に設定されていました。24fps に変更しました。
バージョン 1.0: 初版リリース
あらゆるグンナーへの賛辞
あなたの WAN 2.2 動画は素晴らしいです。見た目は完璧です。でも音声はどこに?私たちは画像から動画へと移行し、WAN 2.2 は動画に驚異的です。欠けていたのは…音声です!
これは私がこれまでに書いた最初の記事なので、誤りがあればお詫びします。間違いやヘルプが必要な場合はコメントをお願いします。参考までに、私が使用している環境は以下です:
ComfyUI 0.3.68
Torch 2.9
CUDA 13
Python 3.13.9
Sage Attention 2.2
NVIDIA 5070 Ti (16GB VRAM)
以下はカスタムノード(合計3つ)です:
ComfyUI-VideoHelperSuite 1.7.7 (https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite)
ComfyUI-MMAudio Nightly (https://github.com/kijai/ComfyUI-MMAudio)
ComfyUI-VFI 不明 (https://github.com/GACLove/ComfyUI-VFI)
- 他の多くの人が使用しているより人気のある RIFE カスタムノードがあるかもしれませんが、補間の分数倍(16 → 24fps は 1.5 倍の補間)を実現する方法がわからなかったため、このノードを使いました。
ワークフローに進みましょう…
------------------------------------
このワークフローは2つのタスクを処理します:
RIFE を使用して、WAN 2.2 のネイティブ 16fps 出力を 24fps に補間して修正する。
最終的な 24fps 動画を使用して、MMAudio で同期された音声を生成する。
セットアップはプラグアンドプレイです。WAN 動画を導入 → 補間 → MMAudio に投入 → 同期された出力を得る。付属の説明には、FPS、ステップ設定、シードの動作の理由が記載されています。
このワークフローで対応する内容:
RIFE を使用した 16 → 24 fps の補間。
推奨設定(50 ステップ、cfg 4.5)で MMAudio サンプラー。
自動的に 24fps で音声と動画を統合。
30fps 以上の出力が必要な場合、後続で再補間するオプション。
- 完成した 24fps 動画を「ステップ1:Rife 補間」グループに挿入し、「source_fps」を 24 に、「target_fps」を 30 に変更するだけです。
必要な MMAudio ファイル
これらすべてを以下にダウンロードしてください:
ComfyUI/models/mmaudio
MMAudio NSFW モデル(ベースモデルをファインチューニング)
MMAudio VAE (fp16)
MMAudio Synchformer (fp16)
https://huggingface.co/Kijai/MMAudio_safetensors/resolve/main/mmaudio_synchformer_fp16.safetensors
MMAudio CLIP エンコーダ (fp16)
ボーナス
MMAudio トラックをうまく作成したら、作成したいコンテンツに応じて、さらに以下のステップを実行できます。
オーディオ/動画を某种ソフトウェア(CapCut/Shotcut)にインポートし、背景に音楽を重ねてください。私はいくつかの動画でこれを行いました。「ラジオ」フィルターを追加して、音楽がやや薄く背景で再生されているように見せました。
NSFW 音声トラックの横に他の音声トラックを重ねてください。KaptainSisay が非常に洗練された方法でこれを行った例はこちら(https://civitai.com/images/110700679)でご覧いただけます。
