Wan VACE 2.1 & 2.2 - Seamlessly Extend, Join, and Auto-Fill Existing Videos While Maintaining Motion

詳細

ファイルをダウンロード

モデル説明

Wan 2.2は、Model Loaderノードにwan2.2_t2v_low_noise_14Bファイルを使用すると、ほぼ問題なく動作し、はるかに写実的な外観になります。また、解像度を720p以上に保つと、色のずれが大幅に軽減されるようです。一方、Wan 2.1はLoRAやより中立的な外観に適しているようですが、特に大幅に異なる内容を作成したい場合、Wan 2.1 1.3Bが最適です。上位モデルはより堅固で制限が厳しいためです。


これは以前にReddit/Githubで投稿したワークフローです:
https://www.reddit.com/r/StableDiffusion/comments/1k83h9e/seamlessly_extending_and_joining_existing_videos/

このワークフローは、WAN VACEのやや目立たない機能である「時系列拡張」を活用しています。これは「最初のクリップ拡張」と控えめに説明されていますが、実際には既存のクリップ間で完全に欠落したフレームや、マスクされた部分(顔、オブジェクトなど)をほぼすべて自動で埋めることができます。

これはImage-to-Video/開始・終了フレームよりも優れています。既存の映像の動きを維持し、その後のクリップとの動きを自然に接続するからです。

以下の動画では、ソース動画(左)とマスク動画(右)の様子をご覧いただけます。欠落している部分(灰色)は複数箇所にわたり、顔の欠落なども含まれており、これらはすべてVACEによって一度に埋められます。

このワークフローはKijai氏のWAN VACEワークフローを基に構築されています。私はこの時系列拡張部分を、下部右側に4番目のグループとして追加しました(元のワークフローはKijai氏に敬意を表します)。

このワークフローでは、2つの動画を入力します。1つは欠落フレーム/コンテンツが灰色で示されたソース動画、もう1つは白黒のマスク動画(欠落した灰色のコンテンツを白色に再色付けしたもの)です。通常、私は元の動画の明るさを-999程度に下げ、灰色の部分を白色に変更してマスク動画を作成します。

Wanのデフォルト出力長(16fpsで81フレーム、またはFPSが異なる場合はそれに相当する長さ)に合わせて、約5秒に保つようにしてください。ソース動画で使用する正確な長さと灰色の色(#7F7F7F)が必要な場合は、以下からVACEのサンプルクリップをダウンロードできます:
https://huggingface.co/datasets/ali-vilab/VACE-Benchmark/blob/main/assets/examples/firstframe/src_video.mp4

ワークフロー自体では、Shiftを1に、CFGを2–3に設定することをお勧めします。これにより、既存の映像を滑らかに接続することに主に集中できます。数値を高くすると、時にアーチファクトが発生することがあります。

動画品質を最大限に高め、詳細や色のずれを最小限に抑えるためのヒント:

  • 詳細を可能な限り保持するため、CFGを2–3、Shiftを1に保つ。
  • 色のずれを最小限に抑えるため、1080pの解像度でレンダリングする。CausVidはレンダリング時間を5倍以上短縮(50ステップから8ステップに)します。
  • ComfyUIのColor MatchノードをMKL設定で使用すると、色のずれが軽減される(シーンが頻繁に変化する場合は必ずしも適用できない)。
  • ビデオエディターで色相を2–7程度調整し、やや彩度を下げて色のずれを補正する。
  • 可能であれば、最初のシーンを通常のI2Vで開始し(色のずれなし)、その後VACEで新しい変更部分をマスクして追加(フェザー処理で自然に溶け込ませ、I2Vシーンの可能な限り多くの部分を使用)。あるいは、FramePackのVideo InputやSkyReels V2を使用して色のずれのないシーンの「骨格」を作成し、その上にVACEで変更部分をパッチとして追加する。

ダウンロードするモデル:

動画入力を読み込む際の様子を示す追加動画はこちらです。

このモデルで生成された画像

画像が見つかりません。