Wan2.2 5B Fun Control - Fast Video ControlNet

详情

模型描述

工作流概览

这是一个先进的 ComfyUI 工作流,专为使用强大的 Wan2.2 5B Fun 模型生成高质量、可控制的视频而设计。它通过 ControlNet(基于 Canny 边缘检测)将驱动动作视频与起始参考图像结合,生成精美连贯的动画序列。非常适合创建风格一致、动作精准的动态角色动画。

核心概念:使用一个“控制视频”(例如一个人跳舞)来引导运动,同时使用一个“参考图像”(例如角色设计)来定义风格与主体。工作流智能地将二者融合为一个全新的 AI 生成视频。


关键功能与亮点

  • 🚀 顶尖模型:采用 Wan2.2-Fun-5B-Control-Q8_0.gguf 量化模型,在卓越画质与可承受的硬件需求之间取得完美平衡。

  • 🎨 精准控制:集成 Canny 边缘 ControlNet。工作流从输入视频中提取边缘信息,确保生成的动画完美还原原始动作。

  • ⚡ 速度优化:集成自定义 LoRA(Wan2_2_5B_FastWanFullAttn),仅需 8 步采样 即可获得高质量结果,且画质几乎无损。

  • 🧠 高效 LLM 推理:使用独立的量化 umt5-xxl-encoder CLIP 模型进行文本编码,显著降低 GPU 显存负载。

  • 🔧 完整流水线:从模型加载、视频预处理、条件控制、采样到最终视频编码,全部集成在一个流畅有序的图中。

  • 📁 即开即用:已预设最优参数,包含详尽的正向/负向提示词。只需加载你自己的图像和视频即可开始创作。


工作流结构

工作流被清晰划分为逻辑模块,便于理解与自定义:

  1. 步骤1 - 加载模型:加载主 Wan2.2 5B 模型、其 VAE、CLIP 文本编码器和 FastWan LoRA。

  2. 步骤2 - 起始图像:加载你的参考图像,用于定义第一帧的角色与风格。

  3. 步骤3 - 控制视频与视频预处理:加载动作视频,并通过 Canny 节点提取边缘图。

  4. 步骤4 - 提示词:输入正向与负向提示词,引导视频生成方向。

  5. 步骤5 - 视频尺寸与长度Wan22FunControlToVideo 节点整合所有内容,根据控制视频设定输出视频的分辨率与长度。

  6. 采样与解码:使用 UniPC 算法运行 8 步 KSampler,VAE 将潜在表示解码为最终图像帧。

  7. 视频输出VHS_VideoCombine 节点将图像序列编码为 MP4 视频文件。


如何使用此工作流

  1. 下载与安装

    • 确保已安装 ComfyUI Manager,以便轻松安装缺失的自定义节点。

    • 所需自定义节点:ComfyUI-VideoHelperSuiteComfyUI-GGUF(用于加载 .gguf 模型)。

    • 从本帖下载 .json 文件。

  2. 加载模型

    • 主模型:将 Wan2.2-Fun-5B-Control-Q8_0.gguf 放入 ComfyUI/models/gguf/ 文件夹。

    • CLIP 模型:将 umt5-xxl-encoder-q4_k_m.gguf 放入同一 gguf/ 文件夹。

    • VAE:工作流指向 Wan2.2_VAE.safetensors,请确保其位于 models/vae/ 文件夹中。

    • LoRA:将 Wan2_2_5B_FastWanFullAttn_lora_rank_128_bf16.safetensors 放入 models/loras/ 文件夹。若你的 LoRA 存于子文件夹(如 wan_loras/),请相应调整 LoraLoader 节点中的路径。

  3. 加载你的素材

    • 参考图像:在 LoadImage 节点中,将图像名称改为你的文件(如 my_character.png)。

    • 控制视频:在 LoadVideo 节点中,将视频名称改为你的动作片段(如 my_dance_video.mp4)。

  4. 自定义提示词

    • 编辑 正向提示词 节点中的文字,描述你期望的角色与场景。

    • 提供的负向提示词已相当全面,但可根据需要进行修改。

  5. 运行工作流

    • 在 ComfyUI 中排队执行提示词。最终视频将保存至 ComfyUI/output/video/ 文件夹。

获得最佳效果的建议

  • 控制视频:使用动作清晰、对比度高的视频,以便 Canny 检测器发挥最佳效果。剪影或纯色背景视频效果极佳。

  • 参考图像:输出视频的第一帧将高度贴近此图像。请使用高质量的角色图像,其姿态应与控制视频的第一帧相似。

  • 时长设置Wan22FunControlToVideo 中的 length 值默认设为 121,基于原始视频。若你的视频帧数不同,请相应调整此数值。

  • 尝试调整:可调整 LoRA 强度(例如在 0.4 - 0.7 之间)或 Canny 阈值,以精细控制动作保真度与创意自由度之间的平衡。


所需模型(下载链接)

  1. Wan2.2-Fun-5B-Control-Q8_0.ggufhttps://huggingface.co/QuantStack/Wan2.2-Fun-5B-Control-GGUF

  2. umt5-xxl-encoder-q4_k_m.ggufhttps://huggingface.co/city96/umt5-xxl-encoder-gguf/tree/main

  3. Wan2.2_VAE.safetensorshttps://huggingface.co/QuantStack/Wan2.2-Fun-5B-InP-GGUF/tree/main/vae

  4. Wan2_2_5B_FastWanFullAttn_lora_rank_128_bf16.safetensorshttps://huggingface.co/Kijai/WanVideo_comfy/blob/main/FastWan/Wan2_2_5B_FastWanFullAttn_lora_rank_128_bf16.safetensors


总结

本工作流展现了 Wan2.2 模型、ControlNet 与高效 LoRA 之间强大的协同效应。它将复杂性抽象化,为你提供了一键式、可靠的 AI 动画创作解决方案。尽情创作吧!

如果你使用此工作流,请分享你的成果!我非常期待看到你创造的作品!

此模型生成的图像

未找到图像。