stable video diffusion img2vid
詳細
ファイルをダウンロード
このバージョンについて
モデル説明
(((NOT MY MODEL))) Stable Video Diffusion (SVD) Image-to-Videoは、静止画像を条件フレームとして入力し、それから動画を生成するディフュージョンモデルです。(SVD) Image-to-Videoは、画像条件から短い動画クリップを生成するように訓練された潜在ディフュージョンモデルです。このモデルは、同じ解像度(576x1024)のコンテキストフレームを入力として25フレームを生成するように訓練され、SVD Image-to-Video [14フレーム]から微調整されています。また、時間的一貫性を確保するために、広く使用されているf8デコーダーも微調整しました。便利なために、
実際のリポジトリ stabilityai/stable-video-diffusion-img2vid-xt at main (huggingface.co)
高解像度で最先端のテキスト-to-ビデオおよび画像-to-ビデオ合成のための潜在的ビデオディフュージョンモデルです。事前学習データセットを構築するために、私たちは体系的なデータ選択とスケーリング研究を実施し、膨大なビデオデータを収集し、大規模でノイズの多いビデオコレクションを生成的ビデオモデルに適したデータセットに変換する方法を提案しました。さらに、ビデオモデルの訓練を3つの明確なステージに分けてそれぞれ分析し、最終的なモデル性能への影響を評価しました。Stable Video Diffusionは、最先端の画像-to-ビデオ合成およびカメラ制御用LoRAなどの他の関連性の高いアプリケーションのために微調整できる強力なビデオ表現を提供します。最後に、ビデオディフュージョンモデルのマルチビュー微調整に関する先駆的な研究を提供し、SVDが強力な3D事前情報であることを示し、従来の手法の計算量の8分の1でマルチビュー合成において最先端の結果を達成しました。
