WAN 2.2 IMAGE to VIDEO with Caption and Postprocessing
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
ワークフロー:画像 -> 自動キャプション(プロンプト)-> WAN I2V(アップスケール・フレーム補間・動画拡張付き)
- 480p または 720p 解像度の動画クリップを作成します。
Florence キャプション版と、**LTX Prompt Enhancer(LTXPE)**版があります。LTXPEはVRAMをより多く消費します。
10月25日:新しいLightX LoRA(MoE)がリリースされました。強度 > 1.5、ステップ数 7、SD3シフト = 5.0 で試してください。High Noise LoRAを置き換え:
https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v
10月22日:別のLightX LoRA(名前:1022)がリリースされました:
https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main
MultiClip LTXPE PLUS:Wan 2.2. 14B I2V版。以下のMultiClipワークフローに基づき、改善されたLTXプロンプトエンハンサー(LTXPE)機能を搭載(ワークフロー内の注意書きを参照)。
このワークフローは、プロンプト生成に対する制御を強化するためにLTXPE機能を拡張しており、センサーカットされていない言語モデルを使用します。動画生成部分は下記のバージョンと同一です。詳細:/model/1823416?modelVersionId=2303138&dialog=commentThread&commentId=972440
MultiClip:Wan 2.2. 14B I2V版。LightX2V Wan 2.2 LoRAをサポートし、4〜6ステップでクリップを作成し、最大3回拡張可能。15〜20秒の長さの例が投稿されています。
一般版(独自プロンプト使用可能)と、LTXPEを使用して自動プロンプト生成する版の2種類があります。一般版は、LoRAを使用した特定のクリップやNSFWクリップに適しています。LTXPE版は、画像をドロップして幅/高さを設定し、実行するだけでOKです。最終的に、すべてのクリップが1つの動画に結合されます。
低ステップ用の新しいWan 2.2. LightX2v LoRAをサポート
「古い」LightX2v Wan 2.1 LoRAをインジェクト可能。これによりスローモーションクリップを回避し、よりダイナミックな動きを導入できます。
シーケンスごとにWan 2.2. LoRAをサポート
単一クリップ版を含む。これは下記のV1.0ワークフローと同等で、「古い」Wan 2.1. LightX2v LoRA用の追加LoRAローダーを搭載。
Wan 2.2は2つのモデルを使用するため、ワークフローが複雑になります。それでも、はるかに軽量で豊富なLoRA選択肢を持つWan 2.1 MultiClip版をチェックすることをお勧めします。こちらで入手可能:/model/1309065?modelVersionId=1998473
V1.0 WAN 2.2. 14B 画像から動画へのワークフロー。LightX2v I2V Wan 2.2 LoRAをサポートし、低ステップ(4〜8ステップ)対応
Wan 2.2. は、クリップ処理のために高ノイズモデルと低ノイズモデルの2つを順次使用します。
LightX2v LoRAと互換性があり、低ステップで高速にクリップを処理可能。
「古い」Wan2.1 LoRAと「新しい」Wan 2.2. LoRAの一部と互換性あり。
ワークフロー内の注意と以下のヒントを参照してください。
モデルは以下からダウンロード可能:
モデル(高ノイズ・低ノイズの両方必要。VRAMに合ったものを選択):https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main
Wan 2.2. 用 LightX2v LoRA(I2V、高・低):https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22-Lightning/old
LightX2v LoRA(旧Wan 2.1):https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras
VAE(Wan 2.1と同等):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae
Textencoder(Wan 2.1と同等):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders
WAN 2.2. I2V 5Bモデル(GGUF)ワークフロー。FlorenceまたはLTXPEによる自動キャプション対応
14Bモデルよりも画質が低め
720p @ 24fps
FastWan LoRAを使用する場合、CFGを1に、ステップ数を4〜5に設定。Unetローダーの後ろにLoRAローダーノードを挿入してLoRAをインジェクト
FastWan LoRA:https://huggingface.co/Kijai/WanVideo_comfy/tree/main/FastWan
モデル(GGUF。VRAMに合ったものを選択):https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/main
VAE:https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/vae
Textencoder(Wan 2.1と同等):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders
ComfyUIフォルダ内への保存場所:
Wan GGUFモデル → models/unet
Textencoder → models/clip
VAE → models/vae
ヒント(14Bモデル用):
Wan 2.2とLoRAについて混乱している?こちらのスレッドをチェック:/model/1823416?modelVersionId=2063446&dialog=commentThread&commentId=890870
Wan 2.2. I2Vのプロンプティングヒント:/model/1823416?modelVersionId=2063446&dialog=commentThread&commentId=890880
どのGGUFモデルをダウンロードすべき?私の環境(VRAM 16GB / RAM 64GB)では、だいたい10GB程度のサイズのモデル(例:"...Q4_K_M.gguf")を使用します。
LTXPE用のセンサーカットされていないモデル: "chuanli11/Llama-3.2-3B-Instruct-uncensored"。LTXPEローダーノード内のLLM_nameを置き換えます。

