WAN 2.2 S2V 14B GGUF
详情
下载文件
模型描述
Wan-S2V 是一个 AI 视频生成模型,可将静态图像和音频转换为高质量视频。
进行中: 正在完善描述,添加所有所需信息和工具!请谨慎使用 🤪
注意: S2V 模型极有可能生成前几帧过度饱和的“闪光”画面。这似乎是当前所有 Wan 2.2 S2V 模型的共同限制。
要求:
4/8 步操作使用
lite lora(可选)主模型 Wan2.2-S2V-14B
ComfyUI/models/unetGGUF音频编码器 wav2vec2_large_english
ComfyUI/models/audio_encoders编码器 Umt5-xxl
ComfyUI/models/text_encodersWan2.1_VAE.safetensors
ComfyUI/models/vae
使用提示:
- 音频文件的时长应与视频文件的秒数大致相同
👂🎶 👉 提示:点击示例以全屏播放,并确保在发布时开启声音!
来源:
Clip: https://huggingface.co/city96/umt5-xxl-encoder-gguf/
模型: https://huggingface.co/QuantStack/Wan2.2-S2V-14B-GGUF/
Lite LoRA: https://huggingface.co/calcuis/wan2-gguf/
您始终对输出内容负责!如果您生成违反 服务条款 的内容,一旦被我发现,我将立即举报。
