(NSFW) Dead-Simple MMAudio + RIFE Interpolation Setup for WAN 2.2 I2V 14B

詳細

ファイルをダウンロード

モデル説明

変更履歴

バージョン 1.0.1: RIFE Group の出力が誤って 8fps に設定されていました。24fps に変更しました。

バージョン 1.0: 初版リリース

あらゆるグンナーへの賛辞

あなたの WAN 2.2 動画は素晴らしいです。見た目は完璧です。でも音声はどこに?私たちは画像から動画へと移行し、WAN 2.2 は動画に驚異的です。欠けていたのは…音声です!

これは私がこれまでに書いた最初の記事なので、誤りがあればお詫びします。間違いやヘルプが必要な場合はコメントをお願いします。参考までに、私が使用している環境は以下です:

  • ComfyUI 0.3.68

  • Torch 2.9

  • CUDA 13

  • Python 3.13.9

  • Sage Attention 2.2

  • NVIDIA 5070 Ti (16GB VRAM)

以下はカスタムノード(合計3つ)です:

ワークフローに進みましょう…

------------------------------------

このワークフローは2つのタスクを処理します:

  1. RIFE を使用して、WAN 2.2 のネイティブ 16fps 出力を 24fps に補間して修正する。

  2. 最終的な 24fps 動画を使用して、MMAudio で同期された音声を生成する。

セットアップはプラグアンドプレイです。WAN 動画を導入 → 補間 → MMAudio に投入 → 同期された出力を得る。付属の説明には、FPS、ステップ設定、シードの動作の理由が記載されています。

このワークフローで対応する内容:

  1. RIFE を使用した 16 → 24 fps の補間。

  2. 推奨設定(50 ステップ、cfg 4.5)で MMAudio サンプラー。

  3. 自動的に 24fps で音声と動画を統合。

  4. 30fps 以上の出力が必要な場合、後続で再補間するオプション。

    1. 完成した 24fps 動画を「ステップ1:Rife 補間」グループに挿入し、「source_fps」を 24 に、「target_fps」を 30 に変更するだけです。

必要な MMAudio ファイル

これらすべてを以下にダウンロードしてください:

ComfyUI/models/mmaudio

MMAudio NSFW モデル(ベースモデルをファインチューニング)

https://huggingface.co/phazei/NSFW_MMaudio/resolve/main/mmaudio_large_44k_nsfw_gold_8.5k_final_fp16.safetensors?download=true

MMAudio VAE (fp16)

https://huggingface.co/Kijai/MMAudio_safetensors/resolve/5984623e6b436818c6ff287ef6eec93e3e05aa3f/mmaudio_vae_44k_fp16.safetensors

MMAudio Synchformer (fp16)

https://huggingface.co/Kijai/MMAudio_safetensors/resolve/main/mmaudio_synchformer_fp16.safetensors

MMAudio CLIP エンコーダ (fp16)

https://huggingface.co/Kijai/MMAudio_safetensors/resolve/main/apple_DFN5B-CLIP-ViT-H-14-384_fp16.safetensors

ボーナス

MMAudio トラックをうまく作成したら、作成したいコンテンツに応じて、さらに以下のステップを実行できます。

  1. オーディオ/動画を某种ソフトウェア(CapCut/Shotcut)にインポートし、背景に音楽を重ねてください。私はいくつかの動画でこれを行いました。「ラジオ」フィルターを追加して、音楽がやや薄く背景で再生されているように見せました。

  2. NSFW 音声トラックの横に他の音声トラックを重ねてください。KaptainSisay が非常に洗練された方法でこれを行った例はこちら(https://civitai.com/images/110700679)でご覧いただけます。

このモデルで生成された画像

画像が見つかりません。