WAN 2.2 IMAGE to VIDEO with Caption and Postprocessing

詳細

ファイルをダウンロード

モデル説明

ワークフロー:画像 -> 自動キャプション(プロンプト)-> WAN I2V(アップスケール・フレーム補間・動画拡張付き)

  • 480p または 720p 解像度の動画クリップを作成します。

Florence キャプション版と、**LTX Prompt Enhancer(LTXPE)**版があります。LTXPEはVRAMをより多く消費します。


10月25日:新しいLightX LoRA(MoE)がリリースされました。強度 > 1.5、ステップ数 7、SD3シフト = 5.0 で試してください。High Noise LoRAを置き換え:

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v

10月22日:別のLightX LoRA(名前:1022)がリリースされました:

https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main


MultiClip LTXPE PLUS:Wan 2.2. 14B I2V版。以下のMultiClipワークフローに基づき、改善されたLTXプロンプトエンハンサー(LTXPE)機能を搭載(ワークフロー内の注意書きを参照)。

このワークフローは、プロンプト生成に対する制御を強化するためにLTXPE機能を拡張しており、センサーカットされていない言語モデルを使用します。動画生成部分は下記のバージョンと同一です。詳細:/model/1823416?modelVersionId=2303138&dialog=commentThread&commentId=972440


MultiClip:Wan 2.2. 14B I2V版LightX2V Wan 2.2 LoRAをサポートし、4〜6ステップでクリップを作成し、最大3回拡張可能。15〜20秒の長さの例が投稿されています。

一般版(独自プロンプト使用可能)と、LTXPEを使用して自動プロンプト生成する版の2種類があります。一般版は、LoRAを使用した特定のクリップやNSFWクリップに適しています。LTXPE版は、画像をドロップして幅/高さを設定し、実行するだけでOKです。最終的に、すべてのクリップが1つの動画に結合されます。

  • 低ステップ用の新しいWan 2.2. LightX2v LoRAをサポート

  • 「古い」LightX2v Wan 2.1 LoRAをインジェクト可能。これによりスローモーションクリップを回避し、よりダイナミックな動きを導入できます。

  • シーケンスごとにWan 2.2. LoRAをサポート

  • 単一クリップ版を含む。これは下記のV1.0ワークフローと同等で、「古い」Wan 2.1. LightX2v LoRA用の追加LoRAローダーを搭載。

Wan 2.2は2つのモデルを使用するため、ワークフローが複雑になります。それでも、はるかに軽量で豊富なLoRA選択肢を持つWan 2.1 MultiClip版をチェックすることをお勧めします。こちらで入手可能:/model/1309065?modelVersionId=1998473


V1.0 WAN 2.2. 14B 画像から動画へのワークフローLightX2v I2V Wan 2.2 LoRAをサポートし、低ステップ(4〜8ステップ)対応

  • Wan 2.2. は、クリップ処理のために高ノイズモデルと低ノイズモデルの2つを順次使用します。

  • LightX2v LoRAと互換性があり、低ステップで高速にクリップを処理可能。

  • 「古い」Wan2.1 LoRAと「新しい」Wan 2.2. LoRAの一部と互換性あり。

  • ワークフロー内の注意と以下のヒントを参照してください。

モデルは以下からダウンロード可能:

モデル(高ノイズ・低ノイズの両方必要。VRAMに合ったものを選択):https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main

Wan 2.2. 用 LightX2v LoRA(I2V、高・低):https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22-Lightning/old

LightX2v LoRA(旧Wan 2.1):https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

VAE(Wan 2.1と同等):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

Textencoder(Wan 2.1と同等):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders


WAN 2.2. I2V 5Bモデル(GGUF)ワークフロー。FlorenceまたはLTXPEによる自動キャプション対応

  • 14Bモデルよりも画質が低め

  • 720p @ 24fps

  • FastWan LoRAを使用する場合、CFGを1に、ステップ数を4〜5に設定。Unetローダーの後ろにLoRAローダーノードを挿入してLoRAをインジェクト

FastWan LoRA:https://huggingface.co/Kijai/WanVideo_comfy/tree/main/FastWan

モデル(GGUF。VRAMに合ったものを選択):https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/main

VAE:https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/vae

Textencoder(Wan 2.1と同等):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders


ComfyUIフォルダ内への保存場所:

Wan GGUFモデル → models/unet
Textencoder → models/clip
VAE → models/vae


ヒント(14Bモデル用):

このモデルで生成された画像

画像が見つかりません。