Wan VACE 2.1 & 2.2 - Seamlessly Extend, Join, and Auto-Fill Existing Videos While Maintaining Motion

Wan 2.2は、Model Loaderノードにwan2.2_t2v_low_noise_14Bファイルを使用すると、ほぼ問題なく動作し、はるかに写実的な外観になります。また、解像度を720p以上に保つと、色のずれが大幅に軽減されるようです。一方、Wan 2.1はLoRAやより中立的な外観に適しているようですが、特に大幅に異なる内容を作成したい場合、Wan 2.1 1.3Bが最適です。上位モデルはより堅固で制限が厳しいためです。

これは以前にReddit/Githubで投稿したワークフローです：
https://www.reddit.com/r/StableDiffusion/comments/1k83h9e/seamlessly_extending_and_joining_existing_videos/

このワークフローは、WAN VACEのやや目立たない機能である「時系列拡張」を活用しています。これは「最初のクリップ拡張」と控えめに説明されていますが、実際には既存のクリップ間で完全に欠落したフレームや、マスクされた部分（顔、オブジェクトなど）をほぼすべて自動で埋めることができます。

これはImage-to-Video／開始・終了フレームよりも優れています。既存の映像の動きを維持し、その後のクリップとの動きを自然に接続するからです。

以下の動画では、ソース動画（左）とマスク動画（右）の様子をご覧いただけます。欠落している部分（灰色）は複数箇所にわたり、顔の欠落なども含まれており、これらはすべてVACEによって一度に埋められます。

このワークフローはKijai氏のWAN VACEワークフローを基に構築されています。私はこの時系列拡張部分を、下部右側に4番目のグループとして追加しました（元のワークフローはKijai氏に敬意を表します）。

このワークフローでは、2つの動画を入力します。1つは欠落フレーム／コンテンツが灰色で示されたソース動画、もう1つは白黒のマスク動画（欠落した灰色のコンテンツを白色に再色付けしたもの）です。通常、私は元の動画の明るさを-999程度に下げ、灰色の部分を白色に変更してマスク動画を作成します。

Wanのデフォルト出力長（16fpsで81フレーム、またはFPSが異なる場合はそれに相当する長さ）に合わせて、約5秒に保つようにしてください。ソース動画で使用する正確な長さと灰色の色（#7F7F7F）が必要な場合は、以下からVACEのサンプルクリップをダウンロードできます：
https://huggingface.co/datasets/ali-vilab/VACE-Benchmark/blob/main/assets/examples/firstframe/src_video.mp4

ワークフロー自体では、Shiftを1に、CFGを2–3に設定することをお勧めします。これにより、既存の映像を滑らかに接続することに主に集中できます。数値を高くすると、時にアーチファクトが発生することがあります。

動画品質を最大限に高め、詳細や色のずれを最小限に抑えるためのヒント：

詳細を可能な限り保持するため、CFGを2–3、Shiftを1に保つ。
色のずれを最小限に抑えるため、1080pの解像度でレンダリングする。CausVidはレンダリング時間を5倍以上短縮（50ステップから8ステップに）します。
ComfyUIのColor MatchノードをMKL設定で使用すると、色のずれが軽減される（シーンが頻繁に変化する場合は必ずしも適用できない）。
ビデオエディターで色相を2–7程度調整し、やや彩度を下げて色のずれを補正する。
可能であれば、最初のシーンを通常のI2Vで開始し（色のずれなし）、その後VACEで新しい変更部分をマスクして追加（フェザー処理で自然に溶け込ませ、I2Vシーンの可能な限り多くの部分を使用）。あるいは、FramePackのVideo InputやSkyReels V2を使用して色のずれのないシーンの「骨格」を作成し、その上にVACEで変更部分をパッチとして追加する。

ダウンロードするモデル：

models/diffusion_models: Wan 2.1/2.2 T2V（1つ選択、VACEの14B/1.3Bと対応）：
Wan 2.2 T2V Low Noise 14B FP16: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp16.safetensors
Wan 2.2 T2V Low Noise 14B FP8: https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/blob/main/split_files/diffusion_models/wan2.2_t2v_low_noise_14B_fp8_scaled.safetensors
Wan 2.1 14B FP16: https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/diffusion_models/wan2.1_t2v_14B_fp16.safetensors
Wan 2.1 14B FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-14B_fp8_e4m3fn.safetensors
Wan 2.1 1.3B FP16: https://huggingface.co/IntervitensInc/Wan2.1-T2V-1.3B-FP16/blob/main/diffusion_pytorch_model.safetensors
Wan 2.1 1.3B FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-T2V-1_3B_fp8_e4m3fn.safetensors
models/diffusion_models: WAN VACE（1つ選択、上記のWanの14B/1.3Bと一致）：
14B BF16: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-VACE_module_14B_bf16.safetensors
14B FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-VACE_module_14B_fp8_e4m3fn.safetensors
1.3B BF16: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan2_1-VACE_module_1_3B_bf16.safetensors
models/text_encoders: umt5-xxl-enc（1つ選択）：
BF16: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-bf16.safetensors
FP8: https://huggingface.co/Kijai/WanVideo_comfy/blob/main/umt5-xxl-enc-fp8_e4m3fn.safetensors
models/vae: WAN 2.1 VAE（すべてのWanバージョン）：
https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/blob/main/split_files/vae/wan_2.1_vae.safetensors
models/loras: WAN CausVid V2 14B T2V、ステップ数を8に削減（Wan 2.1 14B専用）：https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_CausVid_14B_T2V_lora_rank32_v2.safetensors

動画入力を読み込む際の様子を示す追加動画はこちらです。

モデルタイプ	ワークフロー
ベースモデル	Wan Video 14B t2v
公開日	5/3/2025

Wan VACE 2.1 & 2.2 - Seamlessly Extend, Join, and Auto-Fill Existing Videos While Maintaining Motion

詳細

ファイルをダウンロード

モデル説明

このモデルで生成された画像