WAN 2.2 S2V 14B GGUF

darksidewalker

91

908

Wan2.2-S2V-14B Q8

详情

下载文件

模型描述

Wan-S2V 是一个 AI 视频生成模型，可将静态图像和音频转换为高质量视频。

进行中： 正在完善描述，添加所有所需信息和工具！请谨慎使用 🤪

注意： S2V 模型极有可能生成前几帧过度饱和的“闪光”画面。这似乎是当前所有 Wan 2.2 S2V 模型的共同限制。

要求：

4/8 步操作使用 lite lora（可选）
主模型 Wan2.2-S2V-14B ComfyUI/models/unet GGUF
音频编码器 wav2vec2_large_english ComfyUI/models/audio_encoders
编码器 Umt5-xxl ComfyUI/models/text_encoders
Wan2.1_VAE.safetensors ComfyUI/models/vae

使用提示：

音频文件的时长应与视频文件的秒数大致相同

👂🎶 👉 提示：点击示例以全屏播放，并确保在发布时开启声音！

来源：

Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/

模型: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/

Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/

您始终对输出内容负责！如果您生成违反 服务条款 的内容，一旦被我发现，我将立即举报。

此模型生成的图像

排序

未找到图像。