Fast WAN I2V Compact
详情
下载文件
关于此版本
模型描述
专为视觉紧凑和简化操作而设计。我个人认为这是最流畅的工作流。整体布局旨在用户友好、直观,并在完美适配 ComfyUI 工作流窗口的同时,最大限度地节省空间。总而言之,这是满足您所有 WAN 视频生成需求的一站式解决方案。
该工作流在配备 Q8 GGUF 模型且未启用 Sage Attention 的 4070ti 显卡上,60 秒内生成一段 5 秒、480x480 分辨率的视频,使用 LCM 采样结合 Light X2V LoRA 加速生成过程。
该工作流主要使用基础且常见的节点和扩展,因此只需极少努力即可顺利运行。点击“显示更多”查看具体要求和模型下载链接。
显著功能包括:无限 LoRA 加载器、Sage Attention、可提取生成视频的最后一帧用于扩展视频(需手动保存并加载)、独立的视频合成工具工作流,以及独立的超分辨率/插值工具工作流,便于对生成视频进行灵活便捷的后期处理,并充分考虑了从高性能 PC 到低性能设备等各类使用场景。
针对 WAN 2.2:
设计与此前相同,但专为仅运行 WAN 2.2 低噪声模型优化。详见下方“所需模型”部分的新工作流要求。
Light X2V LoRA 在 WAN 2.2 上的强度范围为 1.1 至 2.0 时效果显著,可能以有益或有害的方式大幅改变模型行为。经测试后,我将默认强度设为 1.5,因其表现最稳定,但建议您自行试验以找到最适合您的值。
WAN 2.2 的动态性更强,这意味着其提示方式可能与 WAN 2.1 不同。LoRA 的效果也通常被放大,这可能是好事也可能是坏事,但总体而言,我看到了大量高质量的输出。因此,获得良好结果的关键在于学会如何提示,并根据 LoRA 与您的提示和图像输入的配合情况,可能需要调整 LoRA 强度。将步数调整为 6 或 8 步也有可能提升效果。
工作流中的采样器/调度器设置表现良好,但仍需更多实验,可能存在更优的组合,特别是 RES4LYF 自定义采样器和调度器扩展(见下方要求部分)。
有时会出现失控的不良生成,但一旦调校到位,WAN 2.2 能生成大量 WAN 2.1 无法达到的优质视频。
针对 WAN 2.1:
您可能需要调整的主要设置是输出分辨率或采样步数。其他采样器或调度器也可能适用,但我发现 LCM/Simple 能提供最连贯的输出。唯一其他可调整的设置是 LoRA 强度。此外,还有其他可调参数,例如“SHIFT”,其作用类似 CFG。据我经验,它可显著改变提示/LoRA 的表达方式,并增强运动变化,但通常建议保持默认值。
注意:Sage Attention 默认禁用。若已安装前置依赖,只需选中“Enable for Sage Attention”节点并按 Ctrl+B 启用,然后在其下方将 “sage_attention” 选项从“禁用”改为“启用”。即使您不打算使用 Sage Attention,仍需安装该扩展才能使工作流正常运行。
所需及可选模型:
GGUF WAN 2.2 i2v 模型(仅使用“低噪声”版本):
https://huggingface.co/bullerwins/Wan2.2-I2V-A14B-GGUF/tree/main
GGUF WAN 2.1 i2v 模型:
https://huggingface.co/city96/Wan2.1-I2V-14B-480P-gguf/tree/main
CLIP 模型:
或更高精度的 BF16 CLIP 模型:
https://huggingface.co/minaiosu/Felldude/blob/main/wan21UMT5XxlFP32_bf16.safetensors
CLIP Vision 模型:
或定制的以 NSFW 为导向的 CLIP Vision 模型(推荐):
/model/1802070/wan-21-nsfw-clip-vision-h
VAE 模型:
Light X2V T2V LoRA:https://huggingface.co/Kijai/WanVideo_comfy/blob/main/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors
或新的正规 Light X2V I2V LoRA(推荐):
或 Kijai 的其他 Light X2V 实验版本:
https://huggingface.co/Kijai/WanVideo_comfy/tree/main/Lightx2v
RES4LYF 自定义采样器与调度器:
https://github.com/ClownsharkBatwing/RES4LYF
秘密技巧:使用透明或单色图像(例如黑色)可将 i2v 模型转变为近乎 t2v 模型。它会迅速从空白输入图像过渡并从零生成符合您提示的内容。这是无需更改工作流或模型即可获得 t2v 功能的简易方法。
其他有用信息:
WAN 对输出分辨率的变化极为敏感,通常在宽度或高度为 480 像素时表现最佳。WAN 2.2 本应为 480p 和 720p 模型,但在不同分辨率下仍可能表现不同,或需要调整设置,甚至在某些分辨率下无法正常工作。有些内容在 480x480 下效果良好,有些在 512x512 或更高分辨率下可能更好或更差,但通常在宽度或高度为 480 或 720 时能获得最稳定的输出。

