Wan 2.2 I2V: HD/FHD resolution, but much faster

详情

模型描述

该工作流显著缓解了“速度与质量”的权衡难题,使配备低端硬件的用户能够以高清分辨率生成视频,速度几乎提升一倍!

工作原理

原理极其简单:我们在极低分辨率下运行高噪声模型,然后在将其注入低噪声采样器之前对潜在空间进行上采样。

由于原始图像也会被重新注入,并且在低噪声采样步骤中新增了 Wan 封装节点,因此视觉细节得以保留。

局限性

  • 运动的细腻程度略有损失,但在大多数情况下,速度的提升完全值得。

  • 未在 T2V 上测试,可能无法工作。

快速开始

  1. 模型替换为您的模型,或点击下方链接下载。

  2. 如您的安装中缺少以下所需的自定义节点,请安装它们。

  3. 加载一张图像并编写您的提示词。

  4. 点击运行

自定义节点

必需

可选

·         ComfyUI-GIMM-VFI(用于插帧)

使用的模型

Wan 2.2 14B I2V,量化版:

Lightx2v LoRas:

Fun LoRa:

速度基准测试

  • 设置:65 帧,使用 Q5_K_M I2V 模型,高噪声阶段 4 步(配合 lightx2v 1030),低噪声阶段 4 步(配合 lightx2v 1022 和 Fun HPS2.1 LoRas),两个采样器均使用 euler/beta 采样器/调度器。

  • 硬件:RTX 3060,12GB 显存,32GB 内存。

768*1152px(2:3)

  • 768*1152,无上采样:20′46″

  • 256*384 先 x2 再 x1.5:11′16″(-46%)

  • 256*384 先 x1.5 再 x2:10′48″(-48%)

720*1280px(9:16)

  • 720*1280,无上采样:23′19″

  • 288*512 x2.5:15′57″(-32%)

  • 288*512 先 x2 再 x1.25:11′57″(-49%)<- 此为演示视频

目标分辨率与硬件需求

  • HD:≥ 12GB 显存

  • FHD:≥ 16GB 显存?(未测试,欢迎反馈)

工作流中已包含初始采样分辨率和步数设置建议。

编辑:最后一个采样器的调度器默认设置为 linear_quadratic,但应改为 beta

此模型生成的图像

未找到图像。