HuMo for Wan

세부 정보

파일 다운로드

모델 설명

HuMo: 협업 다중 모달 조건부를 통한 인간 중심 비디오 생성

✨ 주요 기능

HuMo는 텍스트, 이미지, 오디오와 같은 다중 모달 입력을 기반으로 고화질, 세밀하며 제어 가능한 인간 비디오를 생성하도록 설계된 통합된 인간 중심 비디오 생성 프레임워크입니다. 강력한 텍스트 프롬프트 준수, 주체 일관성 유지, 오디오와 동기화된 동작 생성을 지원합니다.

  • ​​텍스트-이미지로부터 비디오 생성​​ - 텍스트 프롬프트와 참조 이미지를 결합하여 캐릭터의 외모, 옷차림, 메이크업, 소품, 배경을 맞춤 설정하세요.

  • ​​텍스트-오디오로부터 비디오 생성​​ - 텍스트와 오디오 입력만으로 오디오와 동기화된 비디오를 생성하며, 이미지 참조가 필요 없어 창의적 자유도를 극대화합니다.

  • ​​텍스트-이미지-오디오로부터 비디오 생성​​ - 텍스트, 이미지, 오디오를 모두 결합하여 더 높은 수준의 맞춤화와 제어를 달성하세요.

다음 출처의 예시 및 모델을 편의상 여기에 재업로드했습니다:
https://huggingface.co/bytedance-research/HuMo
https://github.com/Phantom-video/HuMo

480P 및 720P 해상도를 모두 호환합니다. 720P 추론은 훨씬 더 뛰어난 품질을 제공합니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.