WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing
详情
下载文件
关于此版本
模型描述
工作流:图像 -> 自动字幕(提示)-> WAN I2V(带超分辨、帧插值和视频扩展)
- 可生成最高 480p 分辨率的视频片段(使用对应模型可达 720p)
存在 Florence 字幕版本和 LTX 提示增强器(LTXPE)版本。LTXPE 对显存消耗更大。
MultiClip:Wan 2.1 I2V 版本,支持 Fusion X LoRA,可生成 8 步视频片段并扩展最多 3 倍,示例视频长度为 15-20 秒。
工作流将在输入图像上生成一个片段,并扩展最多 3 个片段/序列。它使用颜色匹配功能,在大多数情况下确保色彩与光照的一致性。详见工作流中的注释。
存在一个标准版,允许使用自定义提示;以及一个使用LTXPE进行自动提示的版本。标准版适合配合 LoRA 生成特定或 NSFW 内容;而 LTXPE 版本只需导入图像,设置宽高,点击运行即可。最终所有片段将合并为一个完整视频。
2025 年 7 月 16 日更新: 新的 LoRA "LightX2v" 已发布,作为 Fusion X LoRA 的替代方案。使用方法:在黑色的“LoRA 加载器”节点中切换 LoRA。它仅需 4-6 步即可生成出色的运动效果:https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras
V3.1:Wan 2.1 I2V 版本,支持 Fusion X LoRA 快速处理
Fusion X LoRA:仅需 8 步(或更少,详见工作流注释)即可处理视频。它不存在 V3.0 中 CausVid LoRA 的问题,且无需颜色匹配校正。
Fusion X LoRA 可在此下载:/model/1678575?modelVersionId=1900322 (i2V)
如需最佳画质,请查看下面 V3.0 版本的 OSS 选项
V3.0:Wan 2.1 I2V 版本,支持 最优步数调度器(OSS) 和 CausVid LoRA
OSS 是一个新的 ComfyUI 核心节点,可在减少步数的同时提升画质。无需 50+ 步,仅约 24 步即可获得相同效果。https://github.com/bebebe666/OptimalSteps
CausVid 使用 LoRA 仅需 8-10 步即可处理视频,速度快但画质略低。其后处理包含 颜色匹配 选项,用于应对 LoRA 带来的饱和度提升。LoRA 可在此下载:https://huggingface.co/Kijai/WanVideo_comfy/tree/main
(Wan21_CausVid_14B_T2V_lora_rank32.safetensors)
两者均有 Florence 或 LTX 提示增强器(LTXPE)字幕版本,支持 LoRA,并内含 Teacache。
V2.5:Wan 2.1 图像转视频,支持 LoRA 和跳层引导(提升运动效果)
提供两个版本:标准版(含 Teacache、Florence 字幕、超分、帧插值等),以及使用 LTX 提示增强器作为额外字幕工具的版本(详见注释,需自定义节点:https://github.com/Lightricks/ComfyUI-LTXVideo)。
使用 LoRA 时,建议切换为包含 LoRA 触发词的自定义提示,复杂提示可能干扰部分 LoRA。
V2.0:Wan 2.1 图像转视频,支持 Teacache 与 GGUF 模型,生成速度提升 30-40%
前几步以正常速度渲染,后续步骤加速。复杂运动可能轻微影响画质。可通过 Strg-B 绕过 Teacache 节点。
含工作流元数据的示例片段:https://civitai.com/posts/13777557
关于 Teacache 的信息与帮助:/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=724665
V1.0:WAN 2.1 图像转视频,支持 Florence 字幕 或自定义提示,以及超分、帧插值和片段扩展。
工作流配置为使用 GGUF 模型。
生成片段时,可选择应用超分辨率和/或帧插值。超分倍数取决于所用超分模型(2x 或 4x,详见“加载超分模型”节点)。帧插值将帧率从模型默认的 16fps 提升至 32fps。结果将在右侧的“最终视频合成”节点中显示,左侧节点显示未处理的原始片段。
建议“切换链接可见性”以隐藏连线。
模型下载地址:
Wan 2.1 I2V(480p):https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main
Clip(fp8):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders
Clip Vision:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision
VAE:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae
Wan 2.1 I2V(720p):https://huggingface.co/city96/Wan2.1-I2V-14B-720P-gguf/tree/main
Wan2.1 文本转视频(可用):https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main
在 ComfyUI 文件夹中保存这些文件的位置:
Wan GGUF 模型 → models/unet
Textencoder → models/clip
Clipvision → models/clip_vision
VAE → models/vae
提示:
将“最终视频合成”节点的帧率从 30 降低至 24,可获得慢动作效果。
可使用文本转视频 GGUF 模型,同样有效。
若视频输出在帧右侧出现异常伪影,尝试将“定义宽高”节点中的参数
divisible_by从 8 改为 16,这有助于更好地匹配 Wan 标准分辨率,避免伪影。
含音频的完整视频示例:

