MMAudio Batch Soundifier
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
動画に音声を追加するためのシンプルなバッチ処理。ナughty機能は有効ですが、必須ではありません。すべてのバッチワークフローで使用している基本的なforループを利用しています。非常にシンプルで、ソースディレクトリとターゲットディレクトリを指定し、フォルダ内の動画の数だけ「実行」をクリックすればよいです。あるいは、疲れるまでクリックしても構いません。結果に違いはありません。処理済みのファイルを自動で追跡し、処理対象のナughty動画がなくなり次第停止します。
MMAudioは24fpsで学習されています。より高いフレームレートに切り替えるボタンがありますが、問題なく動作します(いくつかの小さな注意点は内側に記載済み)。実際、今考えてみると、VHSの動画情報でソース/読み込みオプションが利用可能なので、切り替えボタンはおそらく不要かもしれません。モデルは動画の長さを重視し、画像入力側で気に入らない部分は自動的に減衰させます。したがって、24fps未満のものを与えない限り、特に問題は発生しません。しかし、私はこの方法で使用しており、問題なく動作しています。
12〜15秒のセグメントを試しましたが、短いセグメントほど品質が優れています。個人的には、8〜9秒が最良の品質です。主に数分単位の構成を作成しているため、完成品に音声を付与するには、まずセグメントに分割する必要があります。Shutter Encoderの「分割」機能は、この作業を非常に高速に実行できます。Premiereを使うよりもはるかに速いです。また、処理前に長尺動画を分割する必要がある場合、同時に24fps出力を強制すれば、MMAudioの処理速度が向上します(60fps動画で実行するより)。
プロンプトは最小限に抑えましょう。NSFWモデルが空白を自動で補完してくれます。必要な場合のみ詳細を追加してください。
ファイル名は自動的に新しい結合処理に転送されます。私は多くの完成済み60fps動画に音声を追加しているため、動画を再保存する必要がないので、オーディオ保存ノードを組み込んでいます。
補間やスケーリングを追加する際は注意してください。大規模なワークフローに組み込む際には、VRAMの節約と適切なクリアが必要になる場合があります。音声用に低フレームレートで処理し、出力を補間された結合に送る場合、やや複雑になります。音声追加を目的として新規に作成する場合、私はWANデコード直後、またはアップスケール後(アップスケールは音声モデルが映像の動きをより良く捉えるのに役立ちます)に、専用の24fpsフォルダを設定するのが好きです。こうすることで、NGの動画を処理する無駄な時間を避けられます。
補間を含むワークフロー例。(NSFW)WAN 2.2 I2V 14B用の超シンプルMMAudio + RIFE補間設定
SeoulSeekerさんが、私が最後にMMAudioを弄って以来、どれほど改善されたかを指摘してくれました。ご存知の通り、これは通常数週間以内の変化を意味します。

