WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
ワークフロー:画像 → 自動キャプション(プロンプト)→ WAN I2V(アップスケールおよびフレーム補間、ビデオ拡張対応)
- 最大480p解像度のビデオクリップを作成(対応モデルでは720p)
Florence キャプション版と、LTXプロンプトエンハンサー(LTXPE)版があります。LTXPEはVRAMをより多く消費するため、問題が発生した場合は以下のスレッドをご覧ください:/model/1823416?dialog=commentThread&commentId=955337
MultiClip: Wan 2.1. I2V バージョン(Fusion X LoRA対応)で、8ステップでクリップを作成し最大3回拡張可能。例として、15〜20秒の長さのクリップが掲載されています。
ワークフローは入力画像からクリップを生成し、最大3つの追加クリップ/シーケンスで拡張します。ほとんどの場合、色と明るさの一貫性を保つためにカラーマッチ機能を使用します。完全な詳細はワークフローのノートをご覧ください。
通常版(独自プロンプト使用可能)と、LTXPEを使用した自動プロンプト生成版があります。通常版は、LoRAを使用した特定のクリップやNSFWクリップに適しており、LTXPEは画像をドロップして幅/高さを設定し実行するだけで利用できます。最終的に、これらのクリップは1つの完全なビデオに結合されます。
2025年7月16日更新: 新しいLoRA「LightX2v」が、Fusion X LoRAの代替としてリリースされました。使用するには、黒色の「LoRA Loader」ノードでLoRAを切り替えます。4〜6ステップで優れた動きを生成できます:https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras
V3.1: Wan 2.1. I2V バージョン(Fusion X LoRA対応、高速処理)
Fusion X LoRA: たった8ステップ(またはそれ以下、ワークフローのノートを参照)でビデオを処理できます。V3.0のCausVid LoRAに見られた問題はなく、カラー補正も不要です。
Fusion X LoRAのダウンロード:/model/1678575?modelVersionId=1900322(i2V)
最高品質を目指す場合は、下記のV3.0バージョン(OSS対応)をご利用ください。
V3.0: Wan 2.1. I2V バージョン(Optimal Steps Scheduler (OSS) および CausVid LoRA 対応)
OSSは、クオリティを向上させつつステップ数を減らすための新しいComfyUIコアノードです。50ステップ以上ではなく、約24ステップで同等の結果が得られます。https://github.com/bebebe666/OptimalSteps
CausVidはLoRAを使用して8〜10ステップでビデオを処理し、高速ですがクオリティはやや低めです。LoRAが引き起こす飽和度の上昇に対応するため、ポストプロセッシングにカラーマッチオプションが含まれています。LoRAのダウンロード:https://huggingface.co/Kijai/WanVideo_comfy/tree/main
(Wan21_CausVid_14B_T2V_lora_rank32.safetensors)
両方のバージョンに、FlorenceまたはLTXPEによるキャプション対応版があり、LoRA使用可能、Teacacheも内蔵されています。
V2.5: Wan 2.1. LoRA対応画像から動画へ(スキップレイヤーガイダンス搭載、動きの改善)
2種類のバージョンがあります。標準版(Teacache、Florenceキャプション、アップスケール、フレーム補間など対応)と、LTXプロンプトエンハンサーを追加のキャプションツールとして使用する版(詳細はノートを参照、カスタムノード必要:https://github.com/Lightricks/ComfyUI-LTXVideo)。
LoRA使用時には、LoRAのトリガー文句を含む独自プロンプトに切り替えることを推奨します。複雑なプロンプトは一部のLoRAを混乱させる可能性があります。
V2.0: Wan 2.1. Teacache対応画像から動画へ(GGUFモデル対応、生成速度を30〜40%向上)
最初のステップは通常速度で処理し、残りのステップは高速で処理します。複雑な動きではクオリティにわずかな影響が出る場合があります。Strg-BでTeacacheノードをバイパスできます。
ワークフロー付きの例動画:https://civitai.com/posts/13777557
Teacacheに関する情報とヘルプ:/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=724665
V1.0: WAN 2.1. 画像から動画へ(Florenceキャプションまたは独自プロンプト+アップスケール、フレーム補間、クリップ拡張対応)
ワークフローはGGUFモデルを使用するように構成されています。
クリップを生成する際、アップスケールまたは/およびフレーム補間を適用できます。アップスケール倍率は使用するアップスケールモデルによります(2倍または4倍、「load upscale model」ノードを参照)。フレーム補間は、モデルの標準フレームレート16fpsから32fpsに増加するよう設定されています。結果は右側の「Video Combine Final」ノードに表示され、左側のノードには処理前のクリップが表示されます。
「Toggle Link visibility」をオンにしてケーブルを非表示にすることを推奨します。
モデルのダウンロード先:
Wan 2.1. I2V(480p):https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main
Clip(fp8):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
Clip Vision:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision
VAE:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae
Wan 2.1. I2V(720p):https://huggingface.co/city96/Wan2.1-I2V-14B-720P-gguf/tree/main
Wan2.1. テキストから動画へ(動作可能):https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main
これらのファイルをComfyUIフォルダ内に保存する場所:
Wan GGUFモデル → models/unet
Textencoder → models/clip
Clipvision → models/clip_vision
VAE → models/vae
ヒント:
「Video Combine Final」ノードのフレームレートを30から24に下げると、スローモーション効果が得られます。
テキストから動画へ対応するGGUFモデルも使用可能です。
フレームの右端に奇妙なアーティファクトが表示される場合は、「Define Width and Height」ノードの
divisible_byパラメータを8から16に変更してください。これにより、標準のWan解像度に正確に合致し、アーティファクトを回避できます。
オーディオ付きフルビデオの例:

