WAN 2.1 IMAGE to VIDEO with Caption and Postprocessing

详情

模型描述

工作流:图像 -> 自动字幕(提示)-> WAN I2V,支持超分辨率、帧插值和视频扩展

  • 可创建最高 480p 分辨率的视频片段(使用对应模型可达 720p)

存在 Florence 字幕版本和 LTX 提示增强器(LTXPE)版本。LTXPE 对显存要求更高,如遇问题请参见此帖子:/model/1823416?dialog=commentThread&commentId=955337


MultiClip:Wan 2.1. I2V 版本,支持 Fusion X LoRA,可生成 8 步的片段并扩展最多 3 倍,参考示例视频长度为 15-20 秒

工作流将基于输入图像生成一个片段,并最多扩展 3 个附加片段/序列。它使用色彩匹配功能,在大多数情况下确保颜色和光照的一致性。详见工作流中的完整说明。

提供普通版(允许使用自定义提示)和LTXPE版(自动提示)。普通版适用于使用 LoRA 的特定或 NSFW 片段,而 LTXPE 版仅需拖入图像、设置宽高并点击运行即可。最终所有片段将合并为一个完整视频。

2025 年 7 月 16 日更新: 新发布 LoRA "LightX2v" 作为 Fusion X LoRA 的替代方案。使用方法:在黑色的 "LoRA 加载器" 节点中切换 LoRA。它仅需 4-6 步 即可生成出色的动态效果:https://huggingface.co/lightx2v/Wan2.1-I2V-14B-480P-StepDistill-CfgDistill-Lightx2v/tree/main/loras

更多信息/技巧与帮助:/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=869306


V3.1:Wan 2.1. I2V 版本,支持 Fusion X LoRA,实现快速处理

Fusion X LoRA:仅需 8 步(或更少,详见工作流说明)即可处理视频。它不存在 V3.0 中 CausVid LoRA 的问题,且无需色彩匹配校正。

Fusion X LoRA 下载地址:/model/1678575?modelVersionId=1900322(i2V)

请参阅下方 V3.0 版本,配合 OSS 使用以获得最佳画质


V3.0:Wan 2.1. I2V 版本,支持 最优步数调度器(OSS)CausVid LoRA

  • OSS 是一个新的 ComfyUI 核心节点,允许在减少步数的同时提升画质。原本需 50+ 步,现在约 24 步即可获得相同效果。https://github.com/bebebe666/OptimalSteps

  • CausVid 使用 LoRA 仅需 8-10 步处理视频,速度快但画质较低。其后处理中包含色彩匹配选项,用于修正 LoRA 引入的饱和度提升。LoRA 下载地址:https://huggingface.co/Kijai/WanVideo_comfy/tree/main

    (Wan21_CausVid_14B_T2V_lora_rank32.safetensors)

  • 两者均提供 Florence 或 LTX 提示增强器(LTXPE)字幕版本,支持使用 LoRA,并内置 Teacache。


V2.5:Wan 2.1. 图像转视频,支持 LoRA 和 跳层引导(改善运动效果)

提供两个版本:标准版(含 Teacache、Florence 字幕、超分辨率、帧插值等)以及使用 LTX 提示增强器(LTXPE)作为额外字幕工具的版本(详见说明,需自定义节点:https://github.com/Lightricks/ComfyUI-LTXVideo)。

使用 LoRA 时,建议切换为包含 LoRA 触发词的自定义提示,复杂提示可能使部分 LoRA 混乱。


V2.0:Wan 2.1. 图像转视频,支持 TeacacheGGUF 模型,生成速度提升 30-40%

前几步以正常速度渲染,后续步骤加速处理。对于复杂运动,画质略有影响。可通过 Strg-B 跳过 Teacache 节点。

含工作流元数据的示例片段:https://civitai.com/posts/13777557

Teacache 信息与帮助:/model/1309065/wan-21-image-to-video-with-caption-and-postprocessing?dialog=commentThread&commentId=724665


V1.0:WAN 2.1. 图像转视频,支持 Florence 字幕 或自定义提示,附带超分辨率帧插值片段扩展

工作流配置为使用 GGUF 模型。

生成片段时,可选择应用超分辨率和/或帧插值。超分倍数取决于所用超分模型(2x 或 4x,参见“加载超分模型”节点)。帧插值将帧率从模型默认的 16fps 提升至 32fps。结果将在右侧的“最终视频合并”节点中显示,左侧节点显示未处理的原始片段。

建议“切换连接可见性”以隐藏连线。


模型下载地址:

Wan 2.1. I2V (480p):https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main

Clip (fp8):https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/text_encoders

Clip Vision:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/clip_vision

VAE:https://huggingface.co/Comfy-Org/Wan_2.1_ComfyUI_repackaged/tree/main/split_files/vae


Wan 2.1. I2V (720p):https://huggingface.co/city96/Wan2.1-I2V-14B-720P-gguf/tree/main

Wan2.1. 文本转视频(可用):https://huggingface.co/city96/Wan2.1-T2V-14B-gguf/tree/main


在 ComfyUI 文件夹中保存这些文件的位置:

Wan GGUF 模型 → models/unet
Textencoder → models/clip
Clipvision → models/clip_vision
VAE → models/vae


提示:

  • 将“最终视频合并”节点中的帧率从 30 降低至 24,可获得慢动作效果

  • 可使用文本转视频 GGUF 模型,同样有效。

  • 若视频输出在帧的最右侧出现异常伪影,请尝试将“定义宽高”节点中的参数 “divisible_by” 从 8 改为 16,这有助于更好地匹配 Wan 的标准分辨率,避免伪影。

带音频的完整视频示例:

此模型生成的图像

未找到图像。