WAN 2.2 S2V 14B GGUF

详情

下载文件

模型描述

Wan-S2V 是一个 AI 视频生成模型,可将静态图像和音频转换为高质量视频。

进行中: 正在完善描述,添加所有所需信息和工具!请谨慎使用 🤪

注意: S2V 模型极有可能生成前几帧过度饱和的“闪光”画面。这似乎是当前所有 Wan 2.2 S2V 模型的共同限制。

要求:

  • 4/8 步操作使用 lite lora(可选)

  • 主模型 Wan2.2-S2V-14B ComfyUI/models/unet GGUF

  • 音频编码器 wav2vec2_large_english ComfyUI/models/audio_encoders

  • 编码器 Umt5-xxl ComfyUI/models/text_encoders

  • Wan2.1_VAE.safetensors ComfyUI/models/vae

使用提示:

  • 音频文件的时长应与视频文件的秒数大致相同

👂🎶 👉 提示:点击示例以全屏播放,并确保在发布时开启声音!

来源:

Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/

模型: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/

Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/


您始终对输出内容负责!如果您生成违反 服务条款 的内容,一旦被我发现,我将立即举报。

此模型生成的图像

未找到图像。