WAN2.2 S2V QuantStack - GGUF 14B Sound-to-Video

详情

模型描述

音视频生成效率的重大突破。 本革命性工作流通过采用完全量化的 GGUF 模型处理 UNET 和 CLIP,可在消费级硬件上运行庞大的 140 亿参数 WAN2.2 音视频模型。体验真正由音频驱动的动画效果,VRAM 需求大幅降低,让高端音视频生成触手可及。支持 CPU/GPU 混合执行。


工作流说明

本工作流是一项技术杰作,旨在让强大的 WAN2.2 音视频 140 亿参数模型普及化。通过使用 ComfyUI-GGUF 插件,它以高度压缩的量化 GGUF 格式加载 UNET 与 CLIP 模型,实现以下优势:

  • 显著节省 VRAM: 采用 Q2_K 量化的 UNET 模型,使 140 亿参数模型可在仅 8–10GB VRAM 的 GPU 上运行,甚至可在性能充足的 CPU 系统上运行。

  • 混合执行: 智能在 GPU 与 CPU 之间动态分配层运算,最大化任意硬件配置的性能表现。

  • 完整功能保真: 尽管经过压缩,仍完整保留所有音视频生成功能:音频驱动的运动、高质量输出与专业级视频编码。

这是为曾认为 140 亿参数音视频模型遥不可及的用户打造的终极方案。现在,你可以运行它了。


功能与技术细节

🧩 量化的模型栈(核心秘诀):

  • UNET (GGUF): Wan2.2-S2V-14B-Q2_K.gguf — 视频生成核心模型,量化至 2 位,实现极致效率。

  • CLIP (GGUF): umt5-xxl-encoder-q4_k_m.gguf — 文本编码器,量化至 4 位,实现性能最优。

  • VAE: Wan2.1_VAE.safetensors — 以常规方式加载,确保最高视觉保真度。

  • 音频编码器: wav2vec2_large_english.safetensors — 将输入音频编码为模型可处理的格式。

🎬 核心功能:

  • 真实音视频生成: 生成的动画直接受输入音频特征驱动。

  • 自动时长计算: 根据音频文件时长,自动计算所需视频帧数(length)。

  • 智能图像预处理: 自动将输入图像缩放至最优尺寸(0.2 百万像素),同时保持原始宽高比以适配动画。

  • 专业输出: 使用 VHS_VideoCombine 渲染最终 MP4 视频,实现完美音画同步。

⚙️ 优化管线:

  • 清晰分组的节点布局,便于理解与操作。

  • 通过 reroute 节点高效路由,保持工作流整洁有序。


使用方法 / 运行步骤

前提条件(至关重要):

  1. ComfyUI-GGUF 插件:必须从其 GitHub 仓库安装 ComfyUI-GGUF 插件。此为必需项。

  2. GGUF 模型文件: 下载所需量化模型:

    • Wan2.2-S2V-14B-Q2_K.gguf(放入 Qwen 2SV\ 文件夹)

    • umt5-xxl-encoder-q4_k_m.gguf

  3. 标准模型: 确保已拥有 Wan2.1_VAE.safetensorswav2vec2_large_english.safetensors

操作步骤:

  1. 加载图像:LoadImage 节点中,选择您的起始图像。

  2. 加载音频:LoadAudio 节点中,选择您的 .wav.mp3 文件。

  3. 编写提示词:正向提示词节点中描述您的场景。负向提示词已预先配置。

  4. 排队生成: 工作流将自动编码音频,通过量化的 140 亿参数模型处理,并生成视频。

⏯️ 输出: 生成完成的视频将保存在您的 ComfyUI output/video/ 文件夹中,格式为 MP4。

此模型生成的图像

未找到图像。