stable video diffusion img2vid

(((不是我的模型))) Stable Video Diffusion (SVD) 图像到视频是一个扩散模型，它以静止图像作为条件帧，并从中生成视频。（SVD）图像到视频是一个潜在扩散模型，经过训练以从图像条件生成短视频片段。该模型经过训练，能够在给定相同尺寸的上下文帧的情况下生成25帧、分辨率为576x1024的视频，其在SVD图像到视频（[14帧]）基础上进行了微调。我们还对广泛使用的f8解码器进行了微调，以增强时间一致性。为方便起见，

真实仓库：stabilityai/stable-video-diffusion-img2vid-xt at main (huggingface.co )

一种用于高分辨率、顶尖水平的文本到视频和图像到视频合成的潜在视频扩散模型。为构建其预训练数据集，我们进行了系统性的数据选择与扩展研究，并提出了一种方法，用于整理海量视频数据，将庞大且嘈杂的视频集合转化为适合生成式视频模型的优质数据集。此外，我们引入了视频模型训练的三个不同阶段，并分别分析了它们对最终模型性能的影响。Stable Video Diffusion 提供了一个强大的视频表征，我们基于此微调视频模型，以实现顶尖的图像到视频合成以及其他高度相关的应用，例如用于摄像机控制的LoRAs。最后，我们开展了关于视频扩散模型多视角微调的开创性研究，并证明SVD构成了一种强大的3D先验，在仅使用先前方法1/8计算量的情况下，实现了多视角合成的顶尖结果。

模型类型	检查点
基础模型	Other
发布时间	11/26/2023
训练词汇	video

stable video diffusion img2vid

详情

下载文件

关于此版本

模型描述

此模型生成的图像