Kiko9 WAN 2.1 Native (ComfyUI)
详情
下载文件
关于此版本
模型描述
🧠 Kiko9 ComfyUI WAN 2.1 原生工作流
基于 WAN 2.1 构建的 ComfyUI 图像转视频(I2V)流水线,使用原生 ComfyUI 和 Torch 编译(torch.compile)以提升性能。设计包含双通道生成、帧插值、超分辨率和慢动作功能——专为高保真 AI 增强视频生成优化。
📦 工作流概览
🛠️ 项目分解
🔧 项目设置
项目文件路径生成器:允许使用预设基础路径保存输出。请将其设置为您的本地输出文件夹。
- ✅ 用户操作:更新
root_path为您偏好的保存位置。
- ✅ 用户操作:更新
🧮 宽高比逻辑(请勿修改)
通过浮点转整数计算,根据图像尺寸推导出
width和height,以保持宽高比。- ⚠️ 除非您理解宽高比传播机制,否则请勿修改。
📸 视频图像生成(优化分辨率)
- 使用 FLUX / SDXL 等图像生成工具创建视频帧时,必须以合适分辨率生成,以确保 清晰度与一致性。
🎯 目标视频分辨率
目标尺寸:
480x832宽高比:
480 ÷ 832 ≈ 0.577
✅ 理想生成分辨率
为保留细节并支持高质量下采样,请以 2倍或更高分辨率 生成。保持相同宽高比可避免裁剪或变形。
| 生成分辨率 | 宽高比 | 说明 |
|---|---|---|
960x1664 |
960 ÷ 1664 ≈ 0.577 |
✅ 完美匹配宽高比 |
1024x1536 |
1024 ÷ 1536 ≈ 0.6667 |
🔶 需要轻微裁剪或填充 |
🔄 工作流
- 生成高分辨率图像:使用
960x1664或更高、相同宽高比的分辨率,借助 FLUX、SDXL 等工具。
🧮 为何如此有效
高分辨率生成可减少伪影,提升细节保真度。
下采样会平均像素值,平滑锯齿和噪点。
保持相同宽高比可避免图像扭曲或无效填充。
📥 加载器
加载检查点(WAN2.1):加载 WAN 2.1 原生(ComfyUI)模型检查点。
VAE 与 CLIP 加载器:加载所需的 VAE 和 CLIP 编码器。
Power LoRA 加载器(可选):用于 Power LoRa。
Tile 缓存、增强与 CLIP 视觉:加载辅助模型。
✅ 用户操作:
根据本地模型文件设置
ckpt_name、vae_name和clip_name。确保文件位于您配置的 ComfyUI 模型文件夹中。
🖼️ 图像 / 调整大小
- 加载图像 / 调整大小:加载输入图像或视频片段的第一帧,并调整至模型适用尺寸。
🌍 全局设置
CLIP 文本编码(提示词与负向提示):用于条件控制模型的提示词。
- ✅ 用户操作:根据您的主题/风格自定义这些提示词。
随机种子生成器 / 超分倍数:控制随机种子与图像放大倍数。
- ✅ 用户操作:为可复现性设置
seed,或保留 -1 以使用随机种子。
- ✅ 用户操作:为可复现性设置
🔁 第一通道(初始生成)
KSampler:运行初始推理。
VAE 解码与视频组合:将潜空间解码为图像,并与源图像组合。
慢动作 / 播放音频:可选的音频同步与慢动作设置。
选择最后一帧作为第二通道的起始帧。(弹出窗口)
🔁 第二通道(精炼与扩展)
类似于第一通道,但针对更长推理或更高质量进行了优化。
以第一通道的最后一帧作为第二通道的起始图像。
从视频提取遮罩范围:提取注意力区域遮罩。
图像批次多处理:同时处理多帧。
📈 超分辨率与帧插值
图像锐化 / 人脸修复:后期增强处理。
超分辨率(Real-ESRGAN 或类似工具)。
帧插值(RIFE / FILM):实现更高帧率的平滑过渡。
慢动作:可选,通过插入并融合帧生成电影级慢动作。
🧪 实验性功能(可选,耗时较长)
高级增强或第二阶段去噪/精炼。
适用于对质量要求极高的批量渲染。
- ⏱️ 警告:这些步骤将显著增加处理时间。
⚡ Torch 编译设置(非常重要)
为启用 torch.compile 带来的原生加速,请确保满足以下要求:
✅ 前提条件
PyTorch 2.1+ 并启用 CUDA
NVIDIA 显卡需为 Ampere 架构或更新(RTX 30XX、40XX 系列)
使用最新夜版 ComfyUI,或手动应用
torch.compile()补丁。
💾 保存输出
由 项目路径生成器 与 视频组合 节点控制。
输出格式(如
.mp4、.png、.webm)需在视频组合中明确设置。
📋 注意事项
⚠️ 首次运行
torch.compile会较慢,因其需进行图追踪。🧠 提示词调优对 WAN 2.1 至关重要 —— 尝试使用详细描述。
⚠️ 此工作流未针对旧设备优化。
🙋 常见问题
Q:我的输出卡顿或丢失帧。
- 检查插值与慢动作设置——如无需请关闭其中一项。
Q:工作流在 torch 编译时崩溃。
- 确保使用 PyTorch 2.1+,且您的显卡为 Ampere 或更新架构。
Q:能否与其他模型(如 SDXL)配合使用?
- 可以,但 WAN 2.1 为此特定设置优化,结果可能不同。
📎 致谢
工作流设计:Kiko9
WAN 2.1
ComfyUI 团队,提供强大的模块化引擎
📂 文件夹结构示例
ComfyUI/
├── models/
│ ├── checkpoints/
│ ├── vae/
│ ├── clip/
├── output/
│ └── generated/
├── custom_nodes/ │
📊 WAN 2.1 端到端生成总结
| 步骤 | 描述 | 耗时 / 数量 | 分辨率 |
|---|---|---|---|
| Prompt Start | 初始提示执行开始 | 92.95 秒 | — |
| Model Load | 加载 WAN21 模型权重 | ~15,952 毫秒 | — |
| First Comfy-VFI Pass | 使用 TeaCache 初始化生成帧 | ~6 分 13 秒 | 480x832 |
| Frames Generated (1st pass) | Comfy-VFI 输出帧数 | 231 帧 | 480x832 |
| Second Comfy-VFI Pass | 重复相同步骤生成 | ~6 分 28 秒 | 480x832 |
| Frames Generated (2nd pass) | Comfy-VFI 输出帧数 | (隐含)480x832 | |
| WanVAE Load (1st) | 加载潜空间模型 | ~1220 毫秒 | — |
| WanVAE Load (2nd) | 为复用再次加载 | ~1304 毫秒 | — |
| Face Restoration (GFPGAN) | GFPGANv1.4 修复图像 | 152 帧 | 512x512 |
| Comfy-VFI Run (3rd) | 生成额外帧 | ~未知 | 960x1664 |
| Frames Generated (3rd pass) | Comfy-VFI 输出帧数 | 456 帧 | 960x1664 |
| Comfy-VFI Run (4th) | 最终生成批次 | ~未知 | 960x1664 |
| Frames Generated (4th pass) | Comfy-VFI 输出帧数 | 304 帧 | 960x1664 |
| Prompt End | 流水线最终步骤 | 1050.60 秒 | — |
ℹ️ 备注:
“TeaCache 跳过”:每 30 步中跳过 12 个条件 + 12 个非条件步骤,约优化 20%。
人脸修复仅应用于子集(152 帧)。
最后两通道使用的
960x1664分辨率完美匹配480x832的宽高比,适合下采样或 2 倍视频输出。
🗨️ 反馈与贡献
如遇 bug 或希望贡献改进,请随时提交问题。
🔥 祝您渲染愉快!

