WAN2.2 S2V Pro - AI Sound-to-Video Suite with Voice Cloning

详情

下载文件

模型描述

超越文字与图像。这一开创性工作流以声音作为AI动画的核心驱动力。只需一张图片和任意音频输入,即可生成惊艳的、与音频同步的视频。内置语音克隆(TTS)功能,可从零创建有配音的视频。释放WAN2.2的140亿参数声音到视频模型的强大能力,体验真正的多感官AI。


工作流描述

欢迎来到AI视频生成的下一个前沿。本工作流利用专门的WAN2.2 S2V(声音到视频)14B模型,创建与音频源深度关联的动画。该模型不仅仅是将音频“叠加”在视频上,而是利用音频的特征(语音、音乐、音效)来影响生成视频的运动与动态表现。

声音到视频的魔力:

  • 语音驱动动画:说出一句话,角色的动作将微妙地与语音节奏同步。

  • 音乐视频效果:输入一段音乐,观察动画的运动与流动如何响应节奏与速度。

  • 完整叙事:集成的语音克隆功能允许你仅凭一张角色图像和一段脚本,创建完整的配音故事。

这不仅仅是一个动画工具,更是内容创作者、叙事者和艺术家探索音频与视觉AI协同效应的强大管线。


功能与技术细节

🧩 核心组件:

  • 模型wan2.2_s2v_14B_bf16.safetensors(专用的声音到视频模型)

  • VAEwan_2.1_vae.safetensors

  • CLIPumt5_xxl_fp8_e4m3fn_scaled.safetensors

  • 音频编码器wav2vec2_large_english_fp16.safetensors(为模型编码音频)

🎙️ 集成语音克隆(TTS):

  • 节点ChatterBoxVoiceTTSDiogod

  • 功能:从文本生成逼真语音,可基于参考音频文件(GG_Audio.mp3)克隆声音。

  • 使用场景:在节点中编写你的配音脚本,它将生成用于驱动视频动画的音频。

🎬 输出与编码:

  • 灵活输出格式:工作流支持多种格式,确保最大兼容性:

    • 带音频的MP4视频:通过 CreateVideo + SaveVideo 节点实现。

    • 动画WEBP:高质量、小文件尺寸的循环视频。

    • WEBM:现代化视频格式。

    • VHS_VideoCombine:提供额外编码选项。

  • 自动时长计算:工作流会根据你的音频文件时长自动计算正确的视频长度。


使用方法 / 操作步骤

前提条件:

  1. 专用模型:你必须拥有 wan2.2_s2v_14B_bf16.safetensors 模型。该模型不同于标准的T2V/I2V模型。

  2. ComfyUI Manager:用于安装任何缺失的自定义节点(特别是用于音频时长的 comfy-mtb)。

  3. 音频文件:准备一个音频文件(如 input_wan2.2_s2v.wav),或使用内置TTS功能。

方法一:使用你自己的音频文件

  1. 加载图像:在 LoadImage 节点中选择你的起始图像(如角色肖像)。

  2. 加载音频:在 LoadAudio 节点中选择你的 .wav.mp3 文件。

  3. 撰写提示词:在正向提示词节点中描述你的角色/场景。负向提示词已预设。

  4. 排队生成。音频将被编码并用于驱动图像动画。

方法二:使用语音克隆(TTS)生成音频

  1. 加载图像:如上,选择你的起始图像。

  2. 提供语音参考:在底部的 LoadAudio 节点中,提供一段你希望克隆的声音样本(GG_Audio.mp3)。

  3. 编写脚本:在 ChatterBoxVoiceTTSDiogod 节点中,修改文本为你希望语音说出的内容,例如:"这是对Wan 2点2 S2V的测试。你对结果有何看法?"

  4. 排队生成。工作流将:

    • 使用克隆的声音从你提供的文本生成音频。

    • 用新生成的音频驱动视频动画。

    • 保存带有同步音频的最终视频。

⏯️ 输出:你的视频将保存在 ComfyUI 的 output/ 文件夹中,格式为所选的多种类型(MP4、WEBP、WEBM)。


技巧与提示

  • 音频质量:为获得最佳效果,请使用清晰、无背景噪音的音频文件。模型会对音频进行编码,因此音质至关重要。

  • 提示词依然关键:虽然音频驱动运动,但你的文本提示仍定义角色与风格。例如,“一个微笑并说话的人”比泛泛的提示词更适合语音场景。

  • 尝试不同音频:尝试不同类型的声音!音乐、音效和语音都会产生截然不同的动画风格。

  • 时长计算MathExpression 节点计算视频时长公式为:(audio_duration_in_ms/1000)*16_fps。如需更长或更短的视频,可调整此公式(例如:(a/1000)*8 可实现8fps的慢动作效果)。

  • 故障排除:如出现错误,请首先确认你使用的是正确的 wan2.2_s2v_14B_bf16.safetensors 模型,而非标准Wan模型。

本工作流展示了AI视频生成中一个引人入胜且尚未被充分探索的能力,为自动化内容创作、动态音乐视觉与个性化叙事开辟了无限可能。

我们迫不及待想看到,当声音成为主角时,你将创造出什么!

此模型生成的图像

未找到图像。