Kiko9 WAN 2.1 Native (ComfyUI)

详情

下载文件

模型描述

🧠 Kiko9 ComfyUI WAN 2.1 原生工作流

基于 WAN 2.1 构建的 ComfyUI 图像转视频(I2V)流水线,使用原生 ComfyUI 和 Torch 编译(torch.compile)以提升性能。设计包含双通道生成、帧插值、超分辨率和慢动作功能——专为高保真 AI 增强视频生成优化。

链接 到我用于启动 图像工作流


📦 工作流概览


🛠️ 项目分解

🔧 项目设置

  • 项目文件路径生成器:允许使用预设基础路径保存输出。请将其设置为您的本地输出文件夹。

    • 用户操作更新 root_path 为您偏好的保存位置。

🧮 宽高比逻辑(请勿修改)

  • 通过浮点转整数计算,根据图像尺寸推导出 widthheight,以保持宽高比。

    • ⚠️ 除非您理解宽高比传播机制,否则请勿修改。

📸 视频图像生成(优化分辨率)

  • 使用 FLUX / SDXL 等图像生成工具创建视频帧时,必须以合适分辨率生成,以确保 清晰度与一致性

🎯 目标视频分辨率

  • 目标尺寸480x832

  • 宽高比480 ÷ 832 ≈ 0.577

✅ 理想生成分辨率

为保留细节并支持高质量下采样,请以 2倍或更高分辨率 生成。保持相同宽高比可避免裁剪或变形。

生成分辨率 宽高比 说明
960x1664 960 ÷ 1664 ≈ 0.577 ✅ 完美匹配宽高比
1024x1536 1024 ÷ 1536 ≈ 0.6667 🔶 需要轻微裁剪或填充

🔄 工作流

  1. 生成高分辨率图像:使用 960x1664 或更高、相同宽高比的分辨率,借助 FLUX、SDXL 等工具。

🧮 为何如此有效

  • 高分辨率生成可减少伪影,提升细节保真度。

  • 下采样会平均像素值,平滑锯齿和噪点。

  • 保持相同宽高比可避免图像扭曲或无效填充。


📥 加载器

  • 加载检查点(WAN2.1):加载 WAN 2.1 原生(ComfyUI)模型检查点。

  • VAE 与 CLIP 加载器:加载所需的 VAE 和 CLIP 编码器。

  • Power LoRA 加载器(可选):用于 Power LoRa。

  • Tile 缓存、增强与 CLIP 视觉:加载辅助模型。

    • 用户操作

      • 根据本地模型文件设置 ckpt_namevae_nameclip_name

      • 确保文件位于您配置的 ComfyUI 模型文件夹中。


🖼️ 图像 / 调整大小

  • 加载图像 / 调整大小:加载输入图像或视频片段的第一帧,并调整至模型适用尺寸。

🌍 全局设置

  • CLIP 文本编码(提示词与负向提示):用于条件控制模型的提示词。

    • 用户操作:根据您的主题/风格自定义这些提示词。
  • 随机种子生成器 / 超分倍数:控制随机种子与图像放大倍数。

    • 用户操作:为可复现性设置 seed,或保留 -1 以使用随机种子。

🔁 第一通道(初始生成)

  • KSampler:运行初始推理。

  • VAE 解码与视频组合:将潜空间解码为图像,并与源图像组合。

  • 慢动作 / 播放音频:可选的音频同步与慢动作设置。

  • 选择最后一帧作为第二通道的起始帧。(弹出窗口)


🔁 第二通道(精炼与扩展)

  • 类似于第一通道,但针对更长推理或更高质量进行了优化。

  • 以第一通道的最后一帧作为第二通道的起始图像。

  • 从视频提取遮罩范围:提取注意力区域遮罩。

  • 图像批次多处理:同时处理多帧。


📈 超分辨率与帧插值

  • 图像锐化 / 人脸修复:后期增强处理。

  • 超分辨率(Real-ESRGAN 或类似工具)

  • 帧插值(RIFE / FILM):实现更高帧率的平滑过渡。

  • 慢动作:可选,通过插入并融合帧生成电影级慢动作。


🧪 实验性功能(可选,耗时较长)

  • 高级增强或第二阶段去噪/精炼。

  • 适用于对质量要求极高的批量渲染。

    • ⏱️ 警告:这些步骤将显著增加处理时间。

⚡ Torch 编译设置(非常重要)

为启用 torch.compile 带来的原生加速,请确保满足以下要求:

✅ 前提条件

  • PyTorch 2.1+ 并启用 CUDA

  • NVIDIA 显卡需为 Ampere 架构或更新(RTX 30XX、40XX 系列)

  • 使用最新夜版 ComfyUI,或手动应用 torch.compile() 补丁。


💾 保存输出

  • 项目路径生成器视频组合 节点控制。

  • 输出格式(如 .mp4.png.webm)需在 视频组合 中明确设置。


📋 注意事项

  • ⚠️ 首次运行 torch.compile 会较慢,因其需进行图追踪。

  • 🧠 提示词调优对 WAN 2.1 至关重要 —— 尝试使用详细描述。

  • ⚠️ 此工作流未针对旧设备优化。


🙋 常见问题

Q:我的输出卡顿或丢失帧。

  • 检查插值与慢动作设置——如无需请关闭其中一项。

Q:工作流在 torch 编译时崩溃。

  • 确保使用 PyTorch 2.1+,且您的显卡为 Ampere 或更新架构。

Q:能否与其他模型(如 SDXL)配合使用?

  • 可以,但 WAN 2.1 为此特定设置优化,结果可能不同。

📎 致谢

  • 工作流设计:Kiko9

  • WAN 2.1

  • ComfyUI 团队,提供强大的模块化引擎


📂 文件夹结构示例

ComfyUI/
├── models/
│ ├── checkpoints/
│ ├── vae/
│ ├── clip/
├── output/
│ └── generated/
├── custom_nodes/ │


📊 WAN 2.1 端到端生成总结

步骤 描述 耗时 / 数量 分辨率
Prompt Start 初始提示执行开始 92.95 秒
Model Load 加载 WAN21 模型权重 ~15,952 毫秒
First Comfy-VFI Pass 使用 TeaCache 初始化生成帧 ~6 分 13 秒 480x832
Frames Generated (1st pass) Comfy-VFI 输出帧数 231 帧 480x832
Second Comfy-VFI Pass 重复相同步骤生成 ~6 分 28 秒 480x832
Frames Generated (2nd pass) Comfy-VFI 输出帧数 (隐含)480x832
WanVAE Load (1st) 加载潜空间模型 ~1220 毫秒
WanVAE Load (2nd) 为复用再次加载 ~1304 毫秒
Face Restoration (GFPGAN) GFPGANv1.4 修复图像 152 帧 512x512
Comfy-VFI Run (3rd) 生成额外帧 ~未知 960x1664
Frames Generated (3rd pass) Comfy-VFI 输出帧数 456 帧 960x1664
Comfy-VFI Run (4th) 最终生成批次 ~未知 960x1664
Frames Generated (4th pass) Comfy-VFI 输出帧数 304 帧 960x1664
Prompt End 流水线最终步骤 1050.60 秒

ℹ️ 备注:

  • “TeaCache 跳过”:每 30 步中跳过 12 个条件 + 12 个非条件步骤,约优化 20%。

  • 人脸修复仅应用于子集(152 帧)。

  • 最后两通道使用的 960x1664 分辨率完美匹配 480x832 的宽高比,适合下采样或 2 倍视频输出。

🗨️ 反馈与贡献

如遇 bug 或希望贡献改进,请随时提交问题。


🔥 祝您渲染愉快!

此模型生成的图像

未找到图像。