WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

ワークフロー：画像 → 自動キャプション（プロンプト）→ WAN I2V（アップスケールおよびフレーム補間、ビデオ拡張対応）

最大480p解像度のビデオクリップを作成（対応モデルでは720p）

Florence キャプション版と、LTXプロンプトエンハンサー（LTXPE）版があります。LTXPEはVRAMをより多く消費するため、問題が発生した場合は以下のスレッドをご覧ください：/model/1823416?dialog=commentThread&commentId=955337

MultiClip: Wan 2.1. I2V バージョン（Fusion X LoRA対応）で、8ステップでクリップを作成し最大3回拡張可能。例として、15〜20秒の長さのクリップが掲載されています。

ワークフローは入力画像からクリップを生成し、最大3つの追加クリップ/シーケンスで拡張します。ほとんどの場合、色と明るさの一貫性を保つためにカラーマッチ機能を使用します。完全な詳細はワークフローのノートをご覧ください。

通常版（独自プロンプト使用可能）と、LTXPEを使用した自動プロンプト生成版があります。通常版は、LoRAを使用した特定のクリップやNSFWクリップに適しており、LTXPEは画像をドロップして幅/高さを設定し実行するだけで利用できます。最終的に、これらのクリップは1つの完全なビデオに結合されます。

2025年7月16日更新： 新しいLoRA「LightX2v」が、Fusion X LoRAの代替としてリリースされました。使用するには、黒色の「LoRA Loader」ノードでLoRAを切り替えます。4〜6ステップで優れた動きを生成できます：https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

詳細・ヒント・ヘルプ：/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=869306

V3.1: Wan 2.1. I2V バージョン（Fusion X LoRA対応、高速処理）

Fusion X LoRA： たった8ステップ（またはそれ以下、ワークフローのノートを参照）でビデオを処理できます。V3.0のCausVid LoRAに見られた問題はなく、カラー補正も不要です。

Fusion X LoRAのダウンロード：/model/1678575?modelVersionId=1900322（i2V）

最高品質を目指す場合は、下記のV3.0バージョン（OSS対応）をご利用ください。

V3.0: Wan 2.1. I2V バージョン（Optimal Steps Scheduler (OSS) および CausVid LoRA 対応）

OSSは、クオリティを向上させつつステップ数を減らすための新しいComfyUIコアノードです。50ステップ以上ではなく、約24ステップで同等の結果が得られます。https://github.com/bebebe666/OptimalSteps
CausVidはLoRAを使用して8〜10ステップでビデオを処理し、高速ですがクオリティはやや低めです。LoRAが引き起こす飽和度の上昇に対応するため、ポストプロセッシングにカラーマッチオプションが含まれています。LoRAのダウンロード：https://huggingface.co/Kijai/WanVideo_comfy/tree/main

(Wan21_CausVid_14B_T2V_lora_rank32.safetensors)
両方のバージョンに、FlorenceまたはLTXPEによるキャプション対応版があり、LoRA使用可能、Teacacheも内蔵されています。

V2.5: Wan 2.1. LoRA対応画像から動画へ（スキップレイヤーガイダンス搭載、動きの改善）

2種類のバージョンがあります。標準版（Teacache、Florenceキャプション、アップスケール、フレーム補間など対応）と、LTXプロンプトエンハンサーを追加のキャプションツールとして使用する版（詳細はノートを参照、カスタムノード必要：https://github.com/Lightricks/ComfyUI-LTXVideo）。

LoRA使用時には、LoRAのトリガー文句を含む独自プロンプトに切り替えることを推奨します。複雑なプロンプトは一部のLoRAを混乱させる可能性があります。

V2.0: Wan 2.1. Teacache対応画像から動画へ（GGUFモデル対応、生成速度を30〜40%向上）

最初のステップは通常速度で処理し、残りのステップは高速で処理します。複雑な動きではクオリティにわずかな影響が出る場合があります。Strg-BでTeacacheノードをバイパスできます。

ワークフロー付きの例動画：https://civitai.com/posts/13777557

Teacacheに関する情報とヘルプ：/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=724665

V1.0: WAN 2.1. 画像から動画へ（Florenceキャプションまたは独自プロンプト＋アップスケール、フレーム補間、クリップ拡張対応）

ワークフローはGGUFモデルを使用するように構成されています。

クリップを生成する際、アップスケールまたは/およびフレーム補間を適用できます。アップスケール倍率は使用するアップスケールモデルによります（2倍または4倍、「load upscale model」ノードを参照）。フレーム補間は、モデルの標準フレームレート16fpsから32fpsに増加するよう設定されています。結果は右側の「Video Combine Final」ノードに表示され、左側のノードには処理前のクリップが表示されます。

「Toggle Link visibility」をオンにしてケーブルを非表示にすることを推奨します。

モデルのダウンロード先：

Wan 2.1. I2V（480p）：https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main

Clip（fp8）：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

Clip Vision：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

VAE：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

Wan 2.1. I2V（720p）：https://huggingface.co/city96/Wan2.1-I2V-14B-720P-gguf/tree/main

Wan2.1. テキストから動画へ（動作可能）：https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main

これらのファイルをComfyUIフォルダ内に保存する場所：

Wan GGUFモデル → models/unet
Textencoder → models/clip
Clipvision → models/clip_vision
VAE → models/vae

ヒント：

「Video Combine Final」ノードのフレームレートを30から24に下げると、スローモーション効果が得られます。
テキストから動画へ対応するGGUFモデルも使用可能です。
フレームの右端に奇妙なアーティファクトが表示される場合は、「Define Width and Height」ノードのdivisible_byパラメータを8から16に変更してください。これにより、標準のWan解像度に正確に合致し、アーティファクトを回避できます。

オーディオ付きフルビデオの例：

モデルタイプ	ワークフロー
ベースモデル	Wan Video
公開日	3/2/2025

WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

このモデルで生成された画像