wan2.2_ti2v_5B_fp16
세부 정보
파일 다운로드
모델 설명
우리는 기반 비디오 모델의 주요 업그레이드 버전인 Wan2.2를 소개하게 되어 기쁩니다. Wan2.2에서는 다음 혁신들을 도입하는 데 중점을 두었습니다:
👍 효과적인 MoE 아키텍처: Wan2.2는 비디오 확산 모델에 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처를 도입했습니다. 시간 단계 간의 노이즈 제거 과정을 특화된 강력한 전문가 모델로 분리함으로써, 계산 비용은 그대로 유지하면서 전체 모델 용량을 확장합니다.
👍 영화 수준의 미학: Wan2.2는 조명, 구성, 대비, 색조 등에 대한 상세한 라벨링이 포함된 정교하게 선별된 미학 데이터를 통합했습니다. 이를 통해 더 정밀하고 통제 가능한 영화적 스타일 생성이 가능해져, 사용자 정의 가능한 미학적 선호도를 가진 비디오 제작을 지원합니다.
👍 복잡한 움직임 생성: Wan2.1에 비해, Wan2.2는 이미지가 65.6% 더 많고 동영상이 83.2% 더 많은 대규모 데이터로 학습되었습니다. 이 확장은 움직임, 의미론, 미학 등 다양한 차원에서 모델의 일반화 능력을 크게 향상시켜, 현재 공개된 모든 모델과 폐쇄형 모델들 중 최고 성능을 달성했습니다.
👍 효율적인 고해상도 하이브리드 TI2V: Wan2.2는 고급 Wan2.2-VAE를 사용하여 구축된 5B 모델을 오픈소스로 공개했으며, 이 모델은 16×16×4의 압축 비율을 달성했습니다. 이 모델은 720P 해상도로 24fps의 텍스트-투-비디오 및 이미지-투-비디오 생성을 지원하며, 4090과 같은 소비자용 그래픽 카드에서도 실행할 수 있습니다. 현재 이용 가능한 가장 빠른 720P@24fps 모델 중 하나로, 산업 및 학술 분야의 수요를 동시에 충족시킵니다.
이 저장소에는 고급 Wan2.2-VAE를 사용하여 구축된 TI2V-5B 모델이 포함되어 있으며, 이 모델은 720P 해상도로 24fps의 텍스트-투-비디오 및 이미지-투-비디오 생성을 지원하고, 4090과 같은 단일 소비자용 GPU에서도 실행 가능합니다. 현재 제공되는 가장 빠른 720P@24fps 모델 중 하나로, 산업용 응용 및 학술 연구의 요구를 충족합니다.
