Hunyuan Video Generation

세부 정보

모델 설명

참고: 이 모델 카드는 Civitai가 Hunyuan 추론 및 LoRA 학습에 필요로 하는 여러 Hunyuan 관련 모델을 포함하고 있습니다. 일부 모델은 중복 업로드될 수 있으며, 이는 문제되지 않습니다. 이는 주로 내부 사용을 위한 것입니다.

Hunyuan Video

공식 저장소: https://huggingface.co/tencent/HunyuanVideo

개요

우리는 HunyuanVideo를 발표합니다. 이는 비디오 생성 성능이 최고의 폐쇄형 모델들과 비교할 수 있거나 그 이상인 새로운 오픈소스 비디오 기반 모델입니다. HunyuanVideo 모델을 학습하기 위해, 우리는 데이터 셀렉션, 이미지-비디오 공동 모델 학습, 그리고 대규모 모델 학습 및 추론을 지원하도록 설계된 효율적인 인프라를 포함한 여러 핵심 기술을 채택했습니다. 또한, 모델 아키텍처와 데이터셋을 효과적으로 확장하는 전략을 통해 130억 개 이상의 매개변수를 가진 비디오 생성 모델을 성공적으로 학습하였으며, 이는 현재까지 모든 오픈소스 모델 중 가장 큰 규모입니다.

우리는 높은 시각적 품질, 움직임의 다양성, 텍스트-비디오 정렬, 그리고 생성 안정성을 보장하기 위해 광범위한 실험을 수행하고 일련의 타겟 디자인을 구현했습니다. 전문가의 인간 평가 결과에 따르면, HunyuanVideo는 Runway Gen-3, Luma 1.6 및 3개의 최고 성능 중국 비디오 생성 모델을 포함한 이전 최첨단 모델들을 능가합니다. 기반 모델 및 응용 프로그램의 코드와 가중치를 공개함으로써, 우리는 폐쇄형과 오픈소스 비디오 기반 모델 간의 격차를 해소하고자 합니다. 이 노력은 커뮤니티 내 모든 사용자가 자신의 아이디어를 실험할 수 있도록 권한을 부여하고, 더 역동적이고 활발한 비디오 생성 생태계를 조성할 것입니다.

HunyuanVideo 전체 아키텍처

HunyuanVideo는 Causal 3D VAE를 통해 압축된 공간-시간 압축 잠재 공간에서 학습됩니다. 텍스트 프롬프트는 대규모 언어 모델을 사용해 인코딩되며 조건으로 사용됩니다. 가우시안 노이즈와 조건을 입력으로 받아, 우리의 생성 모델은 잠재 공간 출력을 생성하고, 이는 3D VAE 디코더를 통해 이미지 또는 비디오로 복원됩니다.

HunyuanVideo 핵심 기능

통합 이미지 및 비디오 생성 아키텍처

HunyuanVideo는 Transformer 설계를 도입하고, 통합된 이미지 및 비디오 생성을 위해 풀 어텐션 메커니즘을 사용합니다. 구체적으로, 비디오 생성을 위해 "이중 스트림에서 단일 스트림" 하이브리드 모델 설계를 채택했습니다. 이중 스트림 단계에서는 비디오 및 텍스트 토큰이 여러 Transformer 블록을 통해 독립적으로 처리되어, 각 모달리티가 서로 간섭 없이 자체 적절한 조절 메커니즘을 학습할 수 있습니다. 단일 스트림 단계에서는 비디오 및 텍스트 토큰을 연결하여 후속 Transformer 블록에 입력하여 효과적인 다중 모달 정보 융합을 수행합니다. 이 설계는 시각적 및 의미적 정보 간의 복잡한 상호작용을 포착하여 전체 모델 성능을 향상시킵니다.

MLLM 텍스트 인코더

기존의 텍스트-비디오 모델들은 일반적으로 사전 학습된 CLIP과 T5-XXL을 텍스트 인코더로 사용하며, CLIP은 Transformer 인코더를, T5는 인코더-디코더 구조를 사용합니다. 반면, 우리는 디코더-전용 구조를 가진 사전 학습된 다중 모달 대형 언어 모델(MLLM)을 텍스트 인코더로 사용합니다. 이는 다음과 같은 장점을 제공합니다: (i) T5와 비교할 때, 비주얼 지시어 미세 조정 후의 MLLM은 특징 공간에서 이미지-텍스트 정렬이 더 우수하여 확산 모델의 지시어 따르기 어려움을 완화합니다; (ii) CLIP과 비교할 때, MLLM은 이미지 세부 묘사 및 복잡한 추론 능력에서 우수함을 입증했습니다; (iii) MLLM은 사용자 프롬프트 앞에 시스템 지시어를 추가함으로써 제로샷 학습자로 기능하며, 텍스트 특징이 핵심 정보에 더 집중하도록 도와줍니다. 또한, MLLM은 인과적 어텐션을 기반으로 하며, T5-XXL은 양방향 어텐션을 사용하여 확산 모델에 더 나은 텍스트 가이던스를 제공합니다. 따라서 우리는 텍스트 특징을 향상시키기 위해 추가적인 양방향 토큰 정제기를 도입했습니다.

3D VAE

HunyuanVideo는 CausalConv3D를 사용하여 3D VAE를 학습하여 픽셀 공간의 비디오 및 이미지를 압축된 잠재 공간으로 변환합니다. 비디오 길이, 공간, 채널의 압축 비율을 각각 4, 8, 16로 설정했습니다. 이는 이후 확산 Transformer 모델의 토큰 수를 크게 줄여 주어, 원래 해상도와 프레임 속도로 비디오를 학습할 수 있게 합니다.

프롬프트 재작성

사용자 제공 프롬프트의 언어적 스타일과 길이의 변동성을 해결하기 위해, 우리는 Hunyuan-Large 모델을 미세 조정하여 프롬프트 재작성 모델로 활용하여 원래 사용자 프롬프트를 모델이 선호하는 형식으로 조정합니다.

우리는 일반 모드와 마스터 모드의 두 가지 재작성 모드를 제공하며, 이는 서로 다른 프롬프트를 통해 호출할 수 있습니다. 프롬프트는 여기에서 확인할 수 있습니다. 일반 모드는 비디오 생성 모델이 사용자의 의도를 더 잘 이해할 수 있도록 도와주어 제공된 지시를 보다 정확하게 해석할 수 있게 합니다. 마스터 모드는 구성, 조명, 카메라 움직임 등의 설명을 강화하여 시각적 품질이 더 높은 비디오 생성을 유도합니다. 그러나 이 강조는 가끔 의미적 세부 정보의 손실을 초래할 수 있습니다.

프롬프트 재작성 모델은 Hunyuan-Large 원래 코드를 사용하여 직접 배포 및 추론할 수 있습니다. 프롬프트 재작성 모델의 가중치는 여기에서 공개되었습니다.

비교

HunyuanVideo의 성능을 평가하기 위해, 우리는 폐쇄형 비디오 생성 모델에서 다섯 개의 강력한 베이스라인을 선택했습니다. 총 1,533개의 텍스트 프롬프트를 사용하여 HunyuanVideo로 단일 실행에 동일한 수의 비디오 샘플을 생성했습니다. 공정한 비교를 위해, 결과의 선별적 선택을 피하고 단 한 번의 추론만 수행했습니다. 베이스라인 방법과 비교할 때, 모든 선택된 모델의 기본 설정을 유지하여 일관된 비디오 해상도를 확보했습니다. 비디오는 텍스트 정렬, 움직임 품질, 시각적 품질의 세 가지 기준에 의해 평가되었습니다. 60명 이상의 전문 평가자가 평가를 수행했습니다. 특히 HunyuanVideo는 전체 성능에서 최고의 성과를 보였으며, 움직임 품질에서 특히 뛰어났습니다. 참고로, 이 평가는 Hunyuan Video의 고품질 버전을 기준으로 하며, 현재 공개된 빠른 버전과는 다릅니다.

모델 오픈소스 지속시간 텍스트 정렬 움직임 품질 시각적 품질 전체 순위
HunyuanVideo (본인) 5s 61.8% 66.5% 95.7% 41.3% 1
CNTopA (API) 5s 62.6% 61.7% 95.6% 37.7% 2
CNTopB (Web) 5s 60.1% 62.9% 97.7% 37.5% 3
GEN-3 alpha (Web) 6s 47.7% 54.7% 97.5% 27.4% 4
Luma1.6 (API) 5s 57.6% 44.2% 94.1% 24.8% 5
CNTopC (Web) 5s 48.4% 47.2% 96.3% 24.6% 6

요구 사항

다음 표는 HunyuanVideo 모델(배치 크기 = 1)을 실행하여 비디오를 생성하기 위한 요구 사항을 보여줍니다:

모델 설정 (높이/너비/프레임) GPU 최대 메모리
HunyuanVideo 720px×1280px×129f 60GB
HunyuanVideo 544px×960px×129f 45GB
  • CUDA를 지원하는 NVIDIA GPU가 필요합니다.

    • 이 모델은 80GB GPU 하나에서 테스트되었습니다.

    • 최소: 720px×1280px×129f에는 최소 60GB GPU 메모리, 544px×960px×129f에는 45GB가 필요합니다.

    • 권장: 더 나은 생성 품질을 위해 80GB 메모리를 가진 GPU 사용을 권장합니다.

  • 테스트된 운영 체제: Linux

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.