Wan Video 2.2

详情

下载文件

模型描述

Wan Video

注意:Civitai 上还托管着其他 Wan Video 文件——这些可能是重复文件,但本模型卡片主要用于托管 Wan Video 在 Civitai 生成器中使用的文件。

这些文件来自 ComfyUI Repack——原始文件可在 Diffusers/多部分 safetensors 格式 中找到。

Wan2.2 是我们视觉生成模型的一次重大升级,现已开源,提供更强大的功能、更优的性能和更高的视觉质量。在 Wan2.2 中,我们重点融入了以下技术创新:

👍 MoE 架构:Wan2.2 将混合专家(MoE)架构引入视频扩散模型。通过使用专门的高性能专家模型分离跨时间步的去噪过程,该架构在保持相同计算成本的同时显著扩大了整体模型容量。

💪🏻 数据扩展:与 Wan2.1 相比,Wan2.2 使用了规模显著更大的数据进行训练,图像数量增加了 65.6%,视频数量增加了 83.2%。这一扩展显著提升了模型在运动、语义和美学等多个维度上的泛化能力,在所有开源和闭源模型中均达到领先水平。

🎬 电影级美学:Wan2.2 融入了精心策划的美学数据,并对光照、构图和色彩进行了细粒度标注,从而实现更精确、更可控的电影风格生成,便于创作满足个性化美学偏好的视频内容。

🚀 高效高清混合 TI2V:Wan2.2 开源了一个基于先进 Wan2.2-VAE 构建的 5B 模型,压缩比达 16×16×4。该模型支持以 720P 分辨率、24fps 同时生成文本到视频和图像到视频,并可在 4090 等消费级显卡上运行。它是目前最快的 720P@24fps 模型之一,可同时满足工业与学术领域的需求。

Wan2.2-T2V-A14B

T2V-A14B 模型支持生成 480P 和 720P 分辨率下 5 秒的视频。采用混合专家(MoE)架构,其视频生成质量卓越。在我们的新基准测试 Wan-Bench 2.0 上,该模型在大多数关键评估维度上均超越了领先的商业模型。

Wan2.2-I2V-A14B

I2V-A14B 模型专为图像到视频生成设计,支持 480P 和 720P 分辨率。采用混合专家(MoE)架构,可实现更稳定的视频合成,减少不真实的摄像机运动,并增强对多样化风格化场景的支持。

Wan2.2-TI2V-5B

TI2V-5B 模型基于先进的 Wan2.2-VAE 构建,压缩比达 16×16×4。该模型支持以 720P 分辨率、24fps 同时生成文本到视频和图像到视频,并可在单张消费级 GPU(如 4090)上运行。它是目前最快速的 720P@24fps 模型之一,可同时满足工业应用和学术研究的需求。

GitHub:https://github.com/Wan-Video/Wan2.2

原始 HuggingFace 仓库:https://huggingface.co/Comfy-Org/Wan_2.2_ComfyUI_Repackaged/tree/main/split_files/diffusion_models

此模型生成的图像

未找到图像。