🧠 Kiko9 ComfyUI WAN 2.1 原生工作流

基于 WAN 2.1 构建的 ComfyUI 图像转视频（I2V）流水线，使用原生 ComfyUI 和 Torch 编译（torch.compile）以提升性能。设计包含双通道生成、帧插值、超分辨率和慢动作功能——专为高保真 AI 增强视频生成优化。

链接到我用于启动图像的工作流：

📦 工作流概览

🛠️ 项目分解

🔧 项目设置

项目文件路径生成器：允许使用预设基础路径保存输出。请将其设置为您的本地输出文件夹。
- ✅ 用户操作：更新 root_path 为您偏好的保存位置。

🧮 宽高比逻辑（请勿修改）

通过浮点转整数计算，根据图像尺寸推导出 width 和 height，以保持宽高比。
- ⚠️ 除非您理解宽高比传播机制，否则请勿修改。

📸 视频图像生成（优化分辨率）

使用 FLUX / SDXL 等图像生成工具创建视频帧时，必须以合适分辨率生成，以确保 清晰度与一致性。

🎯 目标视频分辨率

目标尺寸：480x832
宽高比：480 ÷ 832 ≈ 0.577

✅ 理想生成分辨率

为保留细节并支持高质量下采样，请以 2倍或更高分辨率 生成。保持相同宽高比可避免裁剪或变形。

生成分辨率	宽高比	说明
`960x1664`	`960 ÷ 1664 ≈ 0.577`	✅ 完美匹配宽高比
`1024x1536`	`1024 ÷ 1536 ≈ 0.6667`	🔶 需要轻微裁剪或填充

🔄 工作流

生成高分辨率图像：使用 960x1664 或更高、相同宽高比的分辨率，借助 FLUX、SDXL 等工具。

🧮 为何如此有效

高分辨率生成可减少伪影，提升细节保真度。
下采样会平均像素值，平滑锯齿和噪点。
保持相同宽高比可避免图像扭曲或无效填充。

📥 加载器

加载检查点（WAN2.1）：加载 WAN 2.1 原生（ComfyUI）模型检查点。
VAE 与 CLIP 加载器：加载所需的 VAE 和 CLIP 编码器。
Power LoRA 加载器（可选）：用于 Power LoRa。
Tile 缓存、增强与 CLIP 视觉：加载辅助模型。
- ✅ 用户操作：
  - 根据本地模型文件设置 ckpt_name、vae_name 和 clip_name。
  - 确保文件位于您配置的 ComfyUI 模型文件夹中。

🖼️ 图像 / 调整大小

加载图像 / 调整大小：加载输入图像或视频片段的第一帧，并调整至模型适用尺寸。

🌍 全局设置

CLIP 文本编码（提示词与负向提示）：用于条件控制模型的提示词。
- ✅ 用户操作：根据您的主题/风格自定义这些提示词。
随机种子生成器 / 超分倍数：控制随机种子与图像放大倍数。
- ✅ 用户操作：为可复现性设置 seed，或保留 -1 以使用随机种子。

🔁 第一通道（初始生成）

KSampler：运行初始推理。
VAE 解码与视频组合：将潜空间解码为图像，并与源图像组合。
慢动作 / 播放音频：可选的音频同步与慢动作设置。
选择最后一帧作为第二通道的起始帧。（弹出窗口）

🔁 第二通道（精炼与扩展）

类似于第一通道，但针对更长推理或更高质量进行了优化。
以第一通道的最后一帧作为第二通道的起始图像。
从视频提取遮罩范围：提取注意力区域遮罩。
图像批次多处理：同时处理多帧。

📈 超分辨率与帧插值

图像锐化 / 人脸修复：后期增强处理。
超分辨率（Real-ESRGAN 或类似工具）。
帧插值（RIFE / FILM）：实现更高帧率的平滑过渡。
慢动作：可选，通过插入并融合帧生成电影级慢动作。

🧪 实验性功能（可选，耗时较长）

高级增强或第二阶段去噪/精炼。
适用于对质量要求极高的批量渲染。
- ⏱️ 警告：这些步骤将显著增加处理时间。

⚡ Torch 编译设置（非常重要）

为启用 torch.compile 带来的原生加速，请确保满足以下要求：

✅ 前提条件

PyTorch 2.1+ 并启用 CUDA
NVIDIA 显卡需为 Ampere 架构或更新（RTX 30XX、40XX 系列）
使用最新夜版 ComfyUI，或手动应用 torch.compile() 补丁。

💾 保存输出

由 项目路径生成器 与 视频组合 节点控制。
输出格式（如 .mp4、.png、.webm）需在 视频组合 中明确设置。

📋 注意事项

⚠️ 首次运行 torch.compile 会较慢，因其需进行图追踪。
🧠 提示词调优对 WAN 2.1 至关重要 —— 尝试使用详细描述。
⚠️ 此工作流未针对旧设备优化。

🙋 常见问题

Q：我的输出卡顿或丢失帧。

检查插值与慢动作设置——如无需请关闭其中一项。

Q：工作流在 torch 编译时崩溃。

确保使用 PyTorch 2.1+，且您的显卡为 Ampere 或更新架构。

Q：能否与其他模型（如 SDXL）配合使用？

可以，但 WAN 2.1 为此特定设置优化，结果可能不同。

📎 致谢

工作流设计：Kiko9
WAN 2.1
ComfyUI 团队，提供强大的模块化引擎

📂 文件夹结构示例

ComfyUI/
├── models/
│ ├── checkpoints/
│ ├── vae/
│ ├── clip/
├── output/
│ └── generated/
├── custom_nodes/ │

📊 WAN 2.1 端到端生成总结

步骤	描述	耗时 / 数量	分辨率
Prompt Start	初始提示执行开始	92.95 秒	—
Model Load	加载 WAN21 模型权重	~15,952 毫秒	—
First Comfy-VFI Pass	使用 TeaCache 初始化生成帧	~6 分 13 秒	480x832
Frames Generated (1st pass)	Comfy-VFI 输出帧数	231 帧	480x832
Second Comfy-VFI Pass	重复相同步骤生成	~6 分 28 秒	480x832
Frames Generated (2nd pass)	Comfy-VFI 输出帧数	（隐含）480x832
WanVAE Load (1st)	加载潜空间模型	~1220 毫秒	—
WanVAE Load (2nd)	为复用再次加载	~1304 毫秒	—
Face Restoration (GFPGAN)	GFPGANv1.4 修复图像	152 帧	512x512
Comfy-VFI Run (3rd)	生成额外帧	~未知	960x1664
Frames Generated (3rd pass)	Comfy-VFI 输出帧数	456 帧	960x1664
Comfy-VFI Run (4th)	最终生成批次	~未知	960x1664
Frames Generated (4th pass)	Comfy-VFI 输出帧数	304 帧	960x1664
Prompt End	流水线最终步骤	1050.60 秒	—

ℹ️ 备注：

“TeaCache 跳过”：每 30 步中跳过 12 个条件 + 12 个非条件步骤，约优化 20%。
人脸修复仅应用于子集（152 帧）。
最后两通道使用的 960x1664 分辨率完美匹配 480x832 的宽高比，适合下采样或 2 倍视频输出。

🗨️ 反馈与贡献

如遇 bug 或希望贡献改进，请随时提交问题。

🔥 祝您渲染愉快！

模型类型	工作流
基础模型	Wan Video
发布时间	3/25/2025

Kiko9 WAN 2.1 Native (ComfyUI)

详情

下载文件

关于此版本

模型描述