WAN 2.2 IMAGE to VIDEO with Caption and Postprocessing

详情

模型描述

工作流:图像 -> 自动字幕(提示)-> WAN I2V,带超分辨率、帧插值和视频扩展

  • 生成分辨率为 480p 或 720p 的视频片段。

提供 Florence 字幕版本和 LTX 提示增强器(LTXPE)版本。LTXPE 对 VRAM 要求更高,如遇问题请参阅此帖子:/model/1823416?dialog=commentThread&commentId=955337


MultiClip LTXPE PLUS:基于以下 MultiClip 工作流的 Wan 2.2. 14B I2V 版本,改进了 LTX 提示增强器(LTXPE)功能(见工作流中的说明)。建议您先尝试下方的 MultiClip 工作流。

该工作流增强了 LTXPE 功能,以更精细地控制提示生成,使用了无审查语言模型,视频生成部分与下方版本相同。更多信息:/model/1823416?modelVersionId=2303138&dialog=commentThread&commentId=972440


MultiClip:Wan 2.2. 14B I2V 版本,支持 LightX2V Wan 2.2. Loras,可创建 4-6 步的片段,并扩展至原长度的 3 倍,参见发布示例(长度约 15-20 秒)。

提供普通版(允许使用自定义提示)和LTXPE 版(自动提示)。普通版适用于特定或 NSFW 片段与 Loras 的组合,而 LTXPE 版只需上传图像、设置宽高并点击运行即可。最终所有片段将合并为一个完整视频。

  • 支持新的 Wan 2.2. LightX2v Loras,适用于低步数

  • 此外,您可注入“旧版”LightX2v Wan 2.1 Lora,有助于避免慢动作片段并引入更动态的运动(可能在新版 LightX Lora(如 ver.1022)中已过时)。

  • 支持按序列使用 Wan 2.2. Loras

  • 包含单片段版本,对应下方 V1.0 工作流,并额外增加了用于“旧版”Wan 2.1. LightX2v Lora 的 Lora 加载器。

由于 Wan 2.2 使用两个模型,工作流较为复杂。仍建议您查看 Wan 2.1 MultiClip 版本,它更轻量且拥有丰富的 Lora 选择。地址:/model/1309065?modelVersionId=1998473


V1.0 WAN 2.2. 14B 图像转视频工作流,支持 LightX2v I2V Wan 2.2 Lora,适用于低步数(4-8 步)

  • Wan 2.2. 使用两个模型按顺序处理片段:高噪声模型和低噪声模型。

  • 兼容 LightX2v Loras,可实现低步数快速处理片段。

  • 兼容部分“旧版”Wan2.1 Loras 和“新版”Wan 2.2. Loras

  • 请参阅工作流中的说明及下方提示。

模型可在此下载:

模型(需同时下载高噪声与低噪声模型,根据您的 VRAM 选择匹配版本):https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main

Wan 2.2. 的 LightX2v Loras(I2v,高与低):https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22-Lightning/old

2025 年 10 月 14 日:发布两个新的 LightX 高噪声 Lora(MoE 和 1030),建议使用强度 > 1.5、7 步、SD3 shift = 5.0,替换高噪声 Lora:

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v

2025 年 10 月 22 日:发布另一款 LightX Lora(命名为 1022),推荐使用

https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main

LightX2v Lora(旧版 Wan 2.1):https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

VAE(与 Wan 2.1 相同):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

Textencoder(与 Wan 2.1 相同):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders


WAN 2.2. I2V 5B 模型(GGUF)工作流,支持 Florence 或 LTXPE 自动字幕

  • 质量低于 14B 模型

  • 720p @ 24 帧

  • 使用 FastWan Lora 时,设置 CFG 为 1,步数为 4-5,将 LoraLoader 节点置于 Unet Loader 之后以注入 Lora

FastWan Lora:https://huggingface.co/Kijai/WanVideo_comfy/tree/main/FastWan

模型(GGUF,根据您的 VRAM 选择匹配版本):https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/main

VAE:https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/vae

Textencoder(与 Wan 2.1 相同):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders


在您的 ComfyUI 文件夹中保存这些文件的位置:

Wan GGUF 模型 -> models/unet

Textencoder -> models/clip

VAE -> models/vae


提示(适用于 14B 模型):

此模型生成的图像

未找到图像。