WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

詳細

ファイルをダウンロード

モデル説明

ワークフロー:画像 → 自動キャプション(プロンプト)→ WAN I2V(アップスケールおよびフレーム補間、ビデオ拡張対応)

  • 最大480p解像度のビデオクリップを作成(対応モデルでは720p)

Florence キャプション版と、LTXプロンプトエンハンサー(LTXPE)版があります。LTXPEはVRAMをより多く消費するため、問題が発生した場合は以下のスレッドをご覧ください:/model/1823416?dialog=commentThread&commentId=955337


MultiClip: Wan 2.1. I2V バージョンFusion X LoRA対応)で、8ステップでクリップを作成し最大3回拡張可能。例として、15〜20秒の長さのクリップが掲載されています。

ワークフローは入力画像からクリップを生成し、最大3つの追加クリップ/シーケンスで拡張します。ほとんどの場合、色と明るさの一貫性を保つためにカラーマッチ機能を使用します。完全な詳細はワークフローのノートをご覧ください。

通常版(独自プロンプト使用可能)と、LTXPEを使用した自動プロンプト生成版があります。通常版は、LoRAを使用した特定のクリップやNSFWクリップに適しており、LTXPEは画像をドロップして幅/高さを設定し実行するだけで利用できます。最終的に、これらのクリップは1つの完全なビデオに結合されます。

2025年7月16日更新: 新しいLoRA「LightX2v」が、Fusion X LoRAの代替としてリリースされました。使用するには、黒色の「LoRA Loader」ノードでLoRAを切り替えます。4〜6ステップで優れた動きを生成できます:https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

詳細・ヒント・ヘルプ:/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=869306


V3.1: Wan 2.1. I2V バージョンFusion X LoRA対応、高速処理)

Fusion X LoRA: たった8ステップ(またはそれ以下、ワークフローのノートを参照)でビデオを処理できます。V3.0のCausVid LoRAに見られた問題はなく、カラー補正も不要です。

Fusion X LoRAのダウンロード:/model/1678575?modelVersionId=1900322(i2V)

最高品質を目指す場合は、下記のV3.0バージョン(OSS対応)をご利用ください。


V3.0: Wan 2.1. I2V バージョンOptimal Steps Scheduler (OSS) および CausVid LoRA 対応)

  • OSSは、クオリティを向上させつつステップ数を減らすための新しいComfyUIコアノードです。50ステップ以上ではなく、約24ステップで同等の結果が得られます。https://github.com/bebebe666/OptimalSteps

  • CausVidはLoRAを使用して8〜10ステップでビデオを処理し、高速ですがクオリティはやや低めです。LoRAが引き起こす飽和度の上昇に対応するため、ポストプロセッシングにカラーマッチオプションが含まれています。LoRAのダウンロード:https://huggingface.co/Kijai/WanVideo_comfy/tree/main

    (Wan21_CausVid_14B_T2V_lora_rank32.safetensors)

  • 両方のバージョンに、FlorenceまたはLTXPEによるキャプション対応版があり、LoRA使用可能、Teacacheも内蔵されています。


V2.5: Wan 2.1. LoRA対応画像から動画へ(スキップレイヤーガイダンス搭載、動きの改善)

2種類のバージョンがあります。標準版(Teacache、Florenceキャプション、アップスケール、フレーム補間など対応)と、LTXプロンプトエンハンサーを追加のキャプションツールとして使用する版(詳細はノートを参照、カスタムノード必要:https://github.com/Lightricks/ComfyUI-LTXVideo)。

LoRA使用時には、LoRAのトリガー文句を含む独自プロンプトに切り替えることを推奨します。複雑なプロンプトは一部のLoRAを混乱させる可能性があります。


V2.0: Wan 2.1. Teacache対応画像から動画へGGUFモデル対応、生成速度を30〜40%向上)

最初のステップは通常速度で処理し、残りのステップは高速で処理します。複雑な動きではクオリティにわずかな影響が出る場合があります。Strg-BでTeacacheノードをバイパスできます。

ワークフロー付きの例動画:https://civitai.com/posts/13777557

Teacacheに関する情報とヘルプ:/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=724665


V1.0: WAN 2.1. 画像から動画へ(Florenceキャプションまたは独自プロンプト+アップスケールフレーム補間クリップ拡張対応)

ワークフローはGGUFモデルを使用するように構成されています。

クリップを生成する際、アップスケールまたは/およびフレーム補間を適用できます。アップスケール倍率は使用するアップスケールモデルによります(2倍または4倍、「load upscale model」ノードを参照)。フレーム補間は、モデルの標準フレームレート16fpsから32fpsに増加するよう設定されています。結果は右側の「Video Combine Final」ノードに表示され、左側のノードには処理前のクリップが表示されます。

「Toggle Link visibility」をオンにしてケーブルを非表示にすることを推奨します。


モデルのダウンロード先:

Wan 2.1. I2V(480p):https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main

Clip(fp8):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

Clip Vision:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

VAE:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae


Wan 2.1. I2V(720p):https://huggingface.co/city96/Wan2.1-I2V-14B-720P-gguf/tree/main

Wan2.1. テキストから動画へ(動作可能):https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main


これらのファイルをComfyUIフォルダ内に保存する場所:

Wan GGUFモデル → models/unet
Textencoder → models/clip
Clipvision → models/clip_vision
VAE → models/vae


ヒント:

  • 「Video Combine Final」ノードのフレームレートを30から24に下げると、スローモーション効果が得られます。

  • テキストから動画へ対応するGGUFモデルも使用可能です。

  • フレームの右端に奇妙なアーティファクトが表示される場合は、「Define Width and Height」ノードのdivisible_byパラメータを8から16に変更してください。これにより、標準のWan解像度に正確に合致し、アーティファクトを回避できます。

オーディオ付きフルビデオの例:

このモデルで生成された画像

画像が見つかりません。