Wan2.1-VACE-14B(pro)

세부 정보

파일 다운로드

모델 설명

👑 Wan2.1-VACE-14B (LoRA 가속): 3단계 비디오 생성에서 CausVid LoRA로 10배 속도 향상

🎬 Wan2.1과 CausVid LoRA로 비디오 생성 속도를 약 10배 빠르게! 🎬

📌 개요

CausVid LoRA로 강화된 Wan2.1-VACE-14B 비디오 확산 모델은 고화질, 고효율 비디오 생성을 목표로 설계되었습니다. 특히 480p 및 720p 해상도에서 간소화된 3단계 ComfyUI 워크플로우를 통해 뛰어난 성능을 발휘합니다. 이 가이드는 이 가속된 비디오 생성 기능을 활성화하는 설정 과정을 안내하며, 전체 정밀도 및 빠른 Q3KL GGUF와 같은 양자화된 모델 옵션도 포함합니다.

🔑 핵심 구성 요소

  1. 확산 모델 (14B):

    • 전체 정밀도: wan2.1_vace_14B_fp16.safetensors (LoRA 예제와의 호환성을 위해 권장)

    • 양자화 (Civitai): wan2.1_vace_14B_Q4KM.safetensors

    • 양자화 (GGUF - Civitai): wan2.1_vace_14B_Q3kl.gguf (5분 예제에서 사용, GGUF 로더 필요)

      이것은 Hugging Face의 GGUF 형식과 동일하지 않습니다 (그것들은 누락됨!). 저는 그 버전을 테스트해 보았고, vid2vid 작업에서 작동하지 않았습니다. 그래서 vid2vid와 잘 작동하도록 특별히 설계된 고유한 형식을 개발했습니다. 이 형식들은 호환성과 더 나은 결과를 보장하도록 최적화되고 구조가 다릅니다. 다른 형식이 필요하다면 Hugging Face 버전을 테스트한 후 '댓글'을 남겨주세요!

  2. 성능 LoRA (속도에 필수):

  3. VAE:

  4. 텍스트 인코더: 하나를 선택하세요:

📁 파일 구성

다운로드한 파일을 ComfyUI 디렉토리 내 다음 구조로 배치하세요:

ComfyUI/
├── models/
│   ├── diffusion_models/
│   │   └── wan2.1_vace_14B_fp16.safetensors  # 또는 Q4KM.safetensors 또는 Q3kl.gguf
│   ├── text_encoders/
│   │   └── umt5_xxl_fp16.safetensors         # 또는 fp8 버전
│   ├── loras/
│   │   └── Wan21_CausVid_14B_T2V_lora_rank32.safetensors
│   └── vae/
│       └── wan_2.1_vae.safetensors

🎨 모델 시연: 빠른 720p 영화적 장면

Wan2.1-VACE-14B와 CausVid LoRA를 사용한 이 설정은 720p(및 480p) 비디오 클립을 놀라운 속도로 생성합니다. 양자화된 GGUF 모델을 사용하면 더욱 빠릅니다. 빠른 반복, 창의적 실험 및 효율적인 콘텐츠 제작에 이상적이며, 3단계 워크플로우로 간소화됩니다.

💡 사용 팁

  • 모델 및 LoRA 구성: 최고의 속도와 품질을 위해 적절한 14B 모델(wan2.1_vace_14B_fp16.safetensors 또는 wan2.1_vace_14B_Q3kl.gguf)과 Wan21_CausVid_14B_T2V_lora_rank32.safetensors LoRA를 사용하세요. LoRA의 강도는 일반적으로 1.0으로 설정하는 것이 좋습니다.

  • 텍스트 인코더: 기존 예제 및 Kijai의 원본 데모와의 최적 호환성을 위해 umt5_xxl_fp16.safetensors 텍스트 인코더를 권장합니다. fp8 버전은 VRAM 절약에 도움이 됩니다.

  • 해상도: 이 설정은 480p 및 720p 비디오 생성에 최적화되었습니다.

  • 성능 향상:

    • LoRA 없음 (fp16): RTX 4090에서 81프레임 720p 비디오 생성에 약 40분 소요

    • CausVid LoRA 사용 (fp16): 동일한 비디오가 RTX 4090에서 약 4분 만에 생성 가능

    • CausVid LoRA 및 Q3KL GGUF 사용: 적절한 하드웨어와 GGUF 로더에서 유사한 출력을 5분 이내로 생성 가능

  • 워크플로우 단순화: 속도 이외의 주요 장점은 모델 로드 후 3단계 생성 프로세스로 단순화된 점입니다. 일반적으로 다음 단계를 포함합니다: 1. 프롬프트 입력(Text Input), 2. KSampler(LoRA 및 선택한 모델 적용), 3. 비디오 결합(Output)

🌟 크레딧 및 감사의 말씀

ComfyUI용으로 재패키징된 원본 Wan 2.1 모델은 Comfy-Org가 제공: Hugging Face의 Wan 2.1 ComfyUI 재패키징. 성능 향상 LoRA인 CausVid LoRA(Wan21_CausVid_14B_T2V_lora_rank32.safetensors)는 Kijai가 추출 및 공유했습니다. 원본 발표 및 상세 정보: Kijai의 Reddit 게시글. Civitai에서 이용 가능한 양자화된 GGUF 및 Safetensors 버전은 보다 넓은 접근성과 속도를 가능하게 합니다. 기반 기술인 CausVid 개발자들에게 감사드립니다(아마도 MIT 라이선스 또는 유사한 오픈 라이선스 하에 제공됨).

👨‍💻 개발자 정보

이 가이드는 Abdallah Al-Swaiti가 작성했습니다:

  1. Hugging Face

  2. GitHub

  3. LinkedIn

  4. ComfyUI-OllamaGemini

추가 도구 및 업데이트를 위해 다른 저장소도 확인하세요.

✨ WAN 2.1 VACE와 Pastel Dream으로 꿈 같은 비디오를 생성하세요! ✨

이미지에 대한 대체 텍스트 설명 없음

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.