WAN 2.2 IMAGE to VIDEO with Caption and Postprocessing

详情

模型描述

工作流:图像 -> 自动字幕(提示)-> WAN I2V(带超分辨率、帧插值和视频扩展)

  • 生成分辨率为 480p 或 720p 的视频片段。

提供 Florence 字幕版本和 LTX 提示增强器(LTXPE)版本。LTXPE 对显存需求更高。


10月25日:新的 LightX LoRA(MoE)已发布,建议使用强度 > 1.5、7 步、SD3 shift = 5.0,替换高噪声 LoRA:

https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22_Lightx2v

10月22日:另一款 LightX LoRA 已发布(命名为 1022):

https://huggingface.co/lightx2v/Wan2.2-Distill-Loras/tree/main


MultiClip LTXPE PLUS:基于以下 MultiClip 工作流的 Wan 2.2 14B I2V 版本,改进了 LTX 提示增强器(LTXPE)功能(见工作流中的说明)。

该工作流增强 LTXPE 功能,以对提示生成提供更精细的控制,采用无审查语言模型,视频生成部分与下方版本相同。更多信息:/model/1823416?modelVersionId=2303138&dialog=commentThread&commentId=972440


MultiClip:Wan 2.2. 14B I2V 版本,支持 LightX2V Wan 2.2 LoRAs,可创建 4-6 步的片段,并扩展至最高 3 倍,参见已发布的15-20秒长度的示例。

提供普通版本(允许使用自定义提示)和LTXPE 版本(自动提示)。普通版本适用于特定或 NSFW 片段搭配 LoRAs;LTXPE 版本仅需上传图像、设置宽高并点击运行。最终将所有片段合并为一个完整视频。

  • 支持新的 Wan 2.2 LightX2v LoRAs(低步数)

  • 此外,可注入“旧版”LightX2v Wan 2.1 LoRA,有助于避免慢动作片段,并引入更动态的运动。

  • 支持按序列使用 Wan 2.2 LoRAs

  • 包含单片段版本,对应下方 V1.0 工作流,并额外增加了用于“旧版”Wan 2.1 LightX2v LoRA 的 LoRA 加载器。

由于 Wan 2.2 使用两个模型,工作流变得复杂。仍建议查看 Wan 2.1 MultiClip 版本,它更轻量且拥有丰富的 LoRA 选择,地址如下:/model/1309065?modelVersionId=1998473


V1.0 WAN 2.2. 14B 图像到视频工作流,支持 LightX2v I2V Wan 2.2 LoRA,适用于低步数(4-8步)

  • Wan 2.2 使用两个模型顺序处理片段:高噪声模型和低噪声模型。

  • LightX2v LoRAs 兼容,可实现低步数快速处理片段。

  • 与部分“旧版”Wan2.1 LoRAs 和“新版”Wan 2.2 LoRAs 兼容。

  • 请参阅工作流中的说明和下方提示。

模型可在此下载:

模型(需同时下载高噪声和低噪声模型,根据你的显存选择):https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main

Wan 2.2 的 LightX2v LoRAs(I2V,高/低噪声):https://huggingface.co/Kijai/WanVideo_comfy/tree/main/LoRAs/Wan22-Lightning/old

LightX2v LoRA(旧版 Wan 2.1):https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

VAE(与 Wan 2.1 相同):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae

Textencoder(与 Wan 2.1 相同):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders


**WAN 2.2. I2V 5B 模型(GGUF)**工作流,支持 Florence 或 LTXPE 自动字幕

  • 质量低于 14B 模型

  • 720p @ 24 帧/秒

  • 使用 FastWan LoRA 时,CFG 设为 1,步数设为 4-5,在 Unet 加载器后插入 LoRA 加载器节点以注入 LoRA

FastWan LoRA:https://huggingface.co/Kijai/WanVideo_comfy/tree/main/FastWan

模型(GGUF,根据显存选择匹配的版本):https://huggingface.co/QuantStack/Wan2.2-TI2V-5B-GGUF/tree/main

VAE:https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/vae

Textencoder(与 Wan 2.1 相同):https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/text_encoders


在你的 ComfyUI 文件夹中保存这些文件的位置:

Wan GGUF 模型 -> models/unet

Textencoder -> models/clip

VAE -> models/vae


提示(适用于 14B 模型):

此模型生成的图像

未找到图像。