wan2.2_ti2v_5B_fp16
详情
下载文件
模型描述
我们很高兴推出 Wan2.2,这是对我们的基础视频模型的重大升级。在 Wan2.2 中,我们重点融入了以下创新:
👍 高效的MoE架构:Wan2.2 将混合专家(MoE)架构引入视频扩散模型。通过使用专门的强力专家模型在时间步之间分离去噪过程,该架构在保持相同计算成本的同时大幅提升了整体模型容量。
👍 电影级美学:Wan2.2 融入了精心策划的美学数据,包含光照、构图、对比度、色彩基调等详细标签。这使得生成更具精确性和可控性的电影风格视频,支持用户自定义美学偏好。
👍 复杂运动生成:与 Wan2.1 相比,Wan2.2 在规模显著更大的数据集上进行训练,图像数量增加 65.6%,视频数量增加 83.2%。这一扩展显著提升了模型在运动、语义和美学等多个维度的泛化能力,在所有开源和闭源模型中达到顶尖性能。
👍 高效的高清混合文本/图像到视频(TI2V):Wan2.2 开源了一个基于先进 Wan2.2-VAE 构建的 5B 模型,实现了 16×16×4 的压缩比。该模型支持以 720P 分辨率、24fps 速率进行文本到视频和图像到视频生成,并可在消费级显卡(如 4090)上运行。它是目前最快的 720P@24fps 模型之一,能够同时满足工业界和学术界的需求。
本仓库包含我们基于先进 Wan2.2-VAE 构建的 TI2V-5B 模型,该模型实现了 16×16×4 的压缩比,支持以 720P 分辨率、24fps 速率进行文本到视频和图像到视频生成,并可在单张消费级 GPU(如 4090)上运行。它是目前最快的 720P@24fps 模型之一,能够同时满足工业应用与学术研究的需求。
