stable video diffusion img2vid
세부 정보
파일 다운로드
이 버전에 대해
모델 설명
(((NOT MY MODEL))) Stable Video Diffusion(SVD) 이미지-동영상은 정적 이미지를 조건 프레임으로 입력받아 이를 기반으로 동영상을 생성하는 확산 모델입니다. (SVD) 이미지-동영상은 이미지 조건을 통해 짧은 동영상 클립을 생성하도록 학습된 잠재 확산 모델입니다. 이 모델은 동일한 해상도(576x1024)의 컨텍스트 프레임을 입력으로 받아 25프레임을 생성하도록 학습되었으며, SVD 이미지-동영상[14프레임]에서 미세 조정되었습니다. 우리는 또한 시간적 일관성을 위해 널리 사용되는 f8-decoder를 미세 조정했습니다. 편의를 위해,
실제 저장소 stabilityai/stable-video-diffusion-img2vid-xt at main (huggingface.co)
고해상도, 최첨단 텍스트-동영상 및 이미지-동영상 합성을 위한 잠재 동영상 확산 모델입니다. 이 모델의 사전 학습 데이터셋을 구축하기 위해, 우리는 체계적인 데이터 선택 및 확장 연구를 수행하고, 방대한 양의 동영상 데이터를 정리하여 대규모이자 잡음이 많은 동영상 컬렉션을 생성적 동영상 모델에 적합한 데이터셋으로 전환하는 방법을 제안했습니다. 또한, 우리는 비디오 모델 학습의 세 가지 독립적인 단계를 도입하며, 각 단계의 영향을 개별적으로 분석하여 최종 모델 성능을 평가했습니다. Stable Video Diffusion은 강력한 동영상 표현을 제공하며, 이를 기반으로 최첨단 이미지-동영상 합성 및 카메라 제어를 위한 LoRA와 같은 기타 관련 응용 분야를 위한 비디오 모델을 미세 조정합니다. 마지막으로, 우리는 비디오 확산 모델의 다중 시점 미세 조정에 대한 선구적인 연구를 제공하며, SVD가 강력한 3D 사전을 구성함을 보여줍니다. 이는 이전 방법의 계산량의 1/8만 사용하면서도 다중 시점 합성에서 최첨단 성능을 달성합니다.
