Hunyuan Video Generation
详情
下载文件
模型描述
注意:此模型卡包含Civitai为Hunyuan推理和LoRA训练所需的多个Hunyuan相关模型。部分模型可能存在重复上传,这是允许的——主要用于内部使用。
Hunyuan Video
官方仓库:https://huggingface.co/tencent/HunyuanVideo
摘要
我们提出了HunyuanVideo,一种新型开源视频基础模型,其视频生成性能可与乃至超越领先的闭源模型。为训练HunyuanVideo模型,我们采用了多项关键技术,包括数据筛选、图像-视频联合模型训练,以及专为大规模模型训练与推理设计的高效基础设施。此外,通过有效的模型架构与数据集扩展策略,我们成功训练了一个拥有超过130亿参数的视频生成模型,成为目前所有开源模型中规模最大的。
我们开展了大量实验,并实施了一系列针对性设计,以确保高视觉质量、运动多样性、文本-视频对齐性以及生成稳定性。根据专业人工评估结果,HunyuanVideo优于以往的最先进模型,包括Runway Gen-3、Luma 1.6以及3个表现最佳的中国视频生成模型。通过开源基础模型及其应用的代码与权重,我们旨在弥合闭源与开源视频基础模型之间的差距。此举将赋能社区中的每个人试验其创意,推动建立一个更加活跃和繁荣的视频生成生态。
HunyuanVideo整体架构
HunyuanVideo在空间-时间压缩的潜在空间上进行训练,该空间通过因果3D VAE(Causal 3D VAE)压缩。文本提示通过大型语言模型编码,并作为条件输入。我们的生成模型以高斯噪声和条件作为输入,输出潜在表示,再通过3D VAE解码器还原为图像或视频。

HunyuanVideo核心特性
统一的图像与视频生成架构
HunyuanVideo引入了Transformer架构,并采用全注意力机制实现图像与视频的统一生成。具体而言,我们采用“双流到单流”的混合模型设计用于视频生成。在双流阶段,视频与文本标记通过多个Transformer块独立处理,使各模态能够学习其特有的调制机制而不互相干扰。在单流阶段,我们将视频和文本标记拼接后输入后续Transformer块,以实现高效的多模态信息融合。此设计能捕捉视觉与语义信息间的复杂交互,提升整体模型性能。

多模态大语言模型(MLLM)文本编码器
以往一些文本到视频模型通常使用预训练的CLIP和T5-XXL作为文本编码器,其中CLIP采用Transformer编码器结构,T5采用编码器-解码器结构。相比之下,我们采用预训练的仅解码器结构的多模态大语言模型(MLLM)作为文本编码器,具有以下优势:(i)与T5相比,经过视觉指令微调的MLLM在特征空间中具有更好的图文对齐能力,缓解了扩散模型中指令遵循的困难;(ii)与CLIP相比,MLLM在图像细节描述和复杂推理方面表现更优;(iii)MLLM可通过在用户提示前添加系统指令实现零样本学习,帮助文本特征更关注关键信息。此外,MLLM基于因果注意力,而T5-XXL采用双向注意力,后者为扩散模型提供更优的文本引导。因此,我们引入了一个额外的双向标记优化器以增强文本特征。

3D VAE
HunyuanVideo训练了一个使用CausalConv3D的3D VAE,将像素空间的视频和图像压缩至紧凑的潜在空间。我们将视频长度、空间和通道的压缩比分别设为4、8和16。这能显著减少后续扩散Transformer模型所需的标记数量,使我们能在原始分辨率和帧率下训练视频。

提示重写
为应对用户提供的提示在语言风格和长度上的多样性,我们微调了Hunyuan-Large模型作为提示重写模型,将原始用户提示适配为模型偏好的格式。
我们提供两种重写模式:标准模式与大师模式,可通过不同提示调用。提示模板详见此处。标准模式旨在增强视频生成模型对用户意图的理解,提升指令解释的准确性;大师模式则强化构图、光照、镜头运动等维度的描述,倾向于生成视觉质量更高的视频,但可能偶尔导致部分语义细节丢失。
提示重写模型可直接使用Hunyuan-Large原始代码进行部署与推理。我们在此处发布提示重写模型的权重:https://huggingface.co/Tencent/HunyuanVideo-PromptRewrite。
对比评估
为评估HunyuanVideo的性能,我们选取了五个闭源视频生成模型作为强基线。共使用1,533个文本提示,每次运行均生成等量的HunyuanVideo视频样本。为确保公平性,所有对比仅进行单次推理,避免结果筛选。对比时,所有基线模型均采用默认设置,保持一致的视频分辨率。视频评估依据三项指标:文本对齐度、运动质量、视觉质量。超过60名专业评估人员参与评估。值得注意的是,HunyuanVideo在整体表现上最优,尤其在运动质量方面表现突出。请注意,本次评估基于Hunyuan Video的高质量版本,不同于当前发布的快速版本。
模型开源状态时长文本对齐度运动质量视觉质量综合得分排名HunyuanVideo(本模型)✔5s61.8%66.5%95.7%41.3%1CNTopA(API)✘5s62.6%61.7%95.6%37.7%2CNTopB(Web)✘5s60.1%62.9%97.7%37.5%3GEN-3 alpha(Web)✘6s47.7%54.7%97.5%27.4%4Luma1.6(API)✘5s57.6%44.2%94.1%24.8%5CNTopC(Web)✘5s48.4%47.2%96.3%24.6%6
环境要求
下表展示了运行HunyuanVideo模型(批大小=1)生成视频所需资源:
模型设置(高度/宽度/帧数)GPU峰值显存HunyuanVideo720px1280px129f60GBHunyuanVideo544px960px129f45GB
- 需配备支持CUDA的NVIDIA GPU。
- 模型已在单张80GB GPU上测试。
- 最低要求:生成720×1280×129f视频需至少60GB显存,生成544×960×129f视频需至少45GB显存。
- 推荐配置:建议使用80GB显存的GPU以获得更优的生成质量。
- 已测试的操作系统:Linux
