stable video diffusion img2vid
详情
下载文件
关于此版本
模型描述
(((不是我的模型))) Stable Video Diffusion (SVD) 图像到视频是一个扩散模型,它以静止图像作为条件帧,并从中生成视频。(SVD)图像到视频是一个潜在扩散模型,经过训练以从图像条件生成短视频片段。该模型经过训练,能够在给定相同尺寸的上下文帧的情况下生成25帧、分辨率为576x1024的视频,其在SVD图像到视频([14帧])基础上进行了微调。我们还对广泛使用的f8解码器进行了微调,以增强时间一致性。为方便起见,
真实仓库:stabilityai/stable-video-diffusion-img2vid-xt at main (huggingface.co)
一种用于高分辨率、顶尖水平的文本到视频和图像到视频合成的潜在视频扩散模型。为构建其预训练数据集,我们进行了系统性的数据选择与扩展研究,并提出了一种方法,用于整理海量视频数据,将庞大且嘈杂的视频集合转化为适合生成式视频模型的优质数据集。此外,我们引入了视频模型训练的三个不同阶段,并分别分析了它们对最终模型性能的影响。Stable Video Diffusion 提供了一个强大的视频表征,我们基于此微调视频模型,以实现顶尖的图像到视频合成以及其他高度相关的应用,例如用于摄像机控制的LoRAs。最后,我们开展了关于视频扩散模型多视角微调的开创性研究,并证明SVD构成了一种强大的3D先验,在仅使用先前方法1/8计算量的情况下,实现了多视角合成的顶尖结果。
