(NSFW) Dead-Simple MMAudio + RIFE Interpolation Setup for WAN 2.2 I2V 14B

変更履歴

バージョン 1.0.1: RIFE Group の出力が誤って 8fps に設定されていました。24fps に変更しました。

バージョン 1.0: 初版リリース

あらゆるグンナーへの賛辞

これは私がこれまでに書いた最初の記事なので、誤りがあればお詫びします。間違いやヘルプが必要な場合はコメントをお願いします。参考までに、私が使用している環境は以下です：

以下はカスタムノード（合計3つ）です：

ComfyUI-VideoHelperSuite 1.7.7 (https://github.com/Kosinkadink/ComfyUI-VideoHelperSuite)
ComfyUI-MMAudio Nightly (https://github.com/kijai/ComfyUI-MMAudio)
ComfyUI-VFI 不明 (https://github.com/GACLove/ComfyUI-VFI)
- 他の多くの人が使用しているより人気のある RIFE カスタムノードがあるかもしれませんが、補間の分数倍（16 → 24fps は 1.5 倍の補間）を実現する方法がわからなかったため、このノードを使いました。

ワークフローに進みましょう…

------------------------------------

このワークフローは2つのタスクを処理します：

セットアップはプラグアンドプレイです。WAN 動画を導入 → 補間 → MMAudio に投入 → 同期された出力を得る。付属の説明には、FPS、ステップ設定、シードの動作の理由が記載されています。

このワークフローで対応する内容：

RIFE を使用した 16 → 24 fps の補間。
推奨設定（50 ステップ、cfg 4.5）で MMAudio サンプラー。
自動的に 24fps で音声と動画を統合。
30fps 以上の出力が必要な場合、後続で再補間するオプション。
1. 完成した 24fps 動画を「ステップ1：Rife 補間」グループに挿入し、「source_fps」を 24 に、「target_fps」を 30 に変更するだけです。

これらすべてを以下にダウンロードしてください：

ComfyUI/models/mmaudio

MMAudio NSFW モデル（ベースモデルをファインチューニング）

MMAudio VAE (fp16)

MMAudio Synchformer (fp16)

MMAudio CLIP エンコーダ (fp16)

MMAudio トラックをうまく作成したら、作成したいコンテンツに応じて、さらに以下のステップを実行できます。

オーディオ/動画を某种ソフトウェア（CapCut/Shotcut）にインポートし、背景に音楽を重ねてください。私はいくつかの動画でこれを行いました。「ラジオ」フィルターを追加して、音楽がやや薄く背景で再生されているように見せました。
NSFW 音声トラックの横に他の音声トラックを重ねてください。KaptainSisay が非常に洗練された方法でこれを行った例はこちら（https://civitai.com/images/110700679）でご覧いただけます。