WAN 2.2 IMAGE to VIDEO with Caption and Postprocessing

ワークフロー：画像 -> 自動キャプション（プロンプト）-> WAN I2V（アップスケール・フレーム補間・動画拡張付き）

480p または 720p 解像度の動画クリップを作成します。

Florence キャプション版と、**LTX Prompt Enhancer（LTXPE）**版があります。LTXPEはVRAMをより多く消費します。

10月25日：新しいLightX LoRA（MoE）がリリースされました。強度 > 1.5、ステップ数 7、SD3シフト = 5.0 で試してください。High Noise LoRAを置き換え：

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v

10月22日：別のLightX LoRA（名前：1022）がリリースされました：

https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main

MultiClip LTXPE PLUS：Wan 2.2. 14B I2V版。以下のMultiClipワークフローに基づき、改善されたLTXプロンプトエンハンサー（LTXPE）機能を搭載（ワークフロー内の注意書きを参照）。

このワークフローは、プロンプト生成に対する制御を強化するためにLTXPE機能を拡張しており、センサーカットされていない言語モデルを使用します。動画生成部分は下記のバージョンと同一です。詳細：/model/1823416?modelVersionId=2303138&dialog=commentThread&commentId=972440

MultiClip：Wan 2.2. 14B I2V版。LightX2V Wan 2.2 LoRAをサポートし、4〜6ステップでクリップを作成し、最大3回拡張可能。15〜20秒の長さの例が投稿されています。

一般版（独自プロンプト使用可能）と、LTXPEを使用して自動プロンプト生成する版の2種類があります。一般版は、LoRAを使用した特定のクリップやNSFWクリップに適しています。LTXPE版は、画像をドロップして幅/高さを設定し、実行するだけでOKです。最終的に、すべてのクリップが1つの動画に結合されます。

低ステップ用の新しいWan 2.2. LightX2v LoRAをサポート
「古い」LightX2v Wan 2.1 LoRAをインジェクト可能。これによりスローモーションクリップを回避し、よりダイナミックな動きを導入できます。
シーケンスごとにWan 2.2. LoRAをサポート
単一クリップ版を含む。これは下記のV1.0ワークフローと同等で、「古い」Wan 2.1. LightX2v LoRA用の追加LoRAローダーを搭載。

Wan 2.2は2つのモデルを使用するため、ワークフローが複雑になります。それでも、はるかに軽量で豊富なLoRA選択肢を持つWan 2.1 MultiClip版をチェックすることをお勧めします。こちらで入手可能：/model/1309065?modelVersionId=1998473

V1.0 WAN 2.2. 14B 画像から動画へのワークフロー。LightX2v I2V Wan 2.2 LoRAをサポートし、低ステップ（4〜8ステップ）対応

Wan 2.2. は、クリップ処理のために高ノイズモデルと低ノイズモデルの2つを順次使用します。
LightX2v LoRAと互換性があり、低ステップで高速にクリップを処理可能。
「古い」Wan2.1 LoRAと「新しい」Wan 2.2. LoRAの一部と互換性あり。
ワークフロー内の注意と以下のヒントを参照してください。

モデルは以下からダウンロード可能：

モデル（高ノイズ・低ノイズの両方必要。VRAMに合ったものを選択）：https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main

Wan 2.2. 用 LightX2v LoRA（I2V、高・低）：https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22-Lightning/old

LightX2v LoRA（旧Wan 2.1）：https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

VAE（Wan 2.1と同等）：https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

Textencoder（Wan 2.1と同等）：https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders

WAN 2.2. I2V 5Bモデル（GGUF）ワークフロー。FlorenceまたはLTXPEによる自動キャプション対応

14Bモデルよりも画質が低め
720p @ 24fps
FastWan LoRAを使用する場合、CFGを1に、ステップ数を4〜5に設定。Unetローダーの後ろにLoRAローダーノードを挿入してLoRAをインジェクト

FastWan LoRA：https://huggingface.co/Kijai/WanVideo_comfy/tree/main/FastWan

モデル（GGUF。VRAMに合ったものを選択）：https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/main

VAE：https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/vae

Textencoder（Wan 2.1と同等）：https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders

ComfyUIフォルダ内への保存場所：

Wan GGUFモデル → models/unet
Textencoder → models/clip
VAE → models/vae

ヒント（14Bモデル用）：

Wan 2.2とLoRAについて混乱している？こちらのスレッドをチェック：/model/1823416?modelVersionId=2063446&dialog=commentThread&commentId=890870
Wan 2.2. I2Vのプロンプティングヒント：/model/1823416?modelVersionId=2063446&dialog=commentThread&commentId=890880
どのGGUFモデルをダウンロードすべき？私の環境（VRAM 16GB / RAM 64GB）では、だいたい10GB程度のサイズのモデル（例："...Q4_K_M.gguf"）を使用します。
LTXPE用のセンサーカットされていないモデル： "chuanli11/Llama-3.2-3B-Instruct-uncensored"。LTXPEローダーノード内のLLM_nameを置き換えます。

モデルタイプ	ワークフロー
ベースモデル	Wan Video 2.2 I2V-A14B
公開日	10/11/2025

WAN 2.2 IMAGE to VIDEO with Caption and Postprocessing

詳細

ファイルをダウンロード

このバージョンについて

モデル説明

このモデルで生成された画像