WAN2.2 S2V QuantStack - GGUF 14B Sound-to-Video

세부 정보

파일 다운로드

모델 설명

사운드-to-비디오의 혁신적인 효율성. 이 혁명적인 워크플로우는 UNET 및 CLIP에 완전히 양자화된 GGUF 모델을 활용하여, 소비자 하드웨어에서 140억 파라미터의 WAN2.2 S2V 모델을 실행합니다. VRAM 요구량이 극적으로 줄어들어, 진정한 오디오 기반 애니메이션을 누구나 경험할 수 있습니다. CPU/GPU 하이브리드 실행을 지원합니다.


워크플로우 설명

이 워크플로우는 강력한 WAN2.2 사운드-투-비디오 14B 모델에 대한 접근을 일반 사용자에게 확장하기 위해 설계된 기술적 걸작입니다. ComfyUI-GGUF 플러그인을 활용해 UNET 및 CLIP 모델을 고도로 압축된 양자화된 GGUF 형식으로 로드합니다. 이는 다음과 같은 이점을 제공합니다:

  • 거대한 VRAM 절감: Q2_K 양자화된 UNET는 14B 모델을 VRAM이 8~10GB만 있는 GPU나 심지어 강력한 CPU 시스템에서도 실행할 수 있게 합니다.

  • 하이브리드 실행: 어떤 하드웨어 환경에서도 성능을 극대화하기 위해 GPU와 CPU 간 레이어를 원활하게 분산 처리합니다.

  • 완전한 품질 기능 유지: 압축에도 불구하고 오디오 기반 애니메이션, 고품질 출력, 전문 비디오 인코딩 등 모든 S2V 기능을 그대로 활용할 수 있습니다.

이것은 14B S2V 모델이 불가능하다고 생각했던 사용자들을 위한 최종 솔루션입니다. 지금 바로 실행할 수 있습니다.


기능 및 기술 세부 사항

🧩 양자화 스택 (마법의 핵심):

  • UNET (GGUF): Wan2.2-S2V-14B-Q2_K.gguf - 핵심 비디오 생성 모델로, 극도의 효율성을 위해 2비트로 양자화되었습니다.

  • CLIP (GGUF): umt5-xxl-encoder-q4_k_m.gguf - 텍스트 인코더로, 최적의 성능을 위해 4비트로 양자화되었습니다.

  • VAE: Wan2.1_VAE.safetensors - 최고의 시각적 품질을 위해 일반 방식으로 로드됩니다.

  • 오디오 인코더: wav2vec2_large_english.safetensors - 입력 오디오를 모델에 맞게 인코딩합니다.

🎬 핵심 기능:

  • 진정한 사운드-투-비디오: 생성된 애니메이션은 입력 오디오의 특성에 직접적으로 영향을 받습니다.

  • 자동 길이 계산: 입력 오디오 파일의 지속시간에 따라 정확한 비디오 프레임 수(length)를 자동으로 계산합니다.

  • 스마트 이미지 전처리: 입력 이미지를 원래 가로세로 비율을 유지한 채 애니메이션에 최적화된 크기(0.2 메가픽셀)로 자동 조정합니다.

  • 전문적 출력: VHS_VideoCombine을 사용해 오디오와 정확히 동기화된 최종 MP4 비디오를 렌더링합니다.

⚙️ 최적화된 파이프라인:

  • 이해하고 사용하기 쉬운 정리된 노드 레이아웃.

  • 워크플로우를 명확하게 유지하기 위한 리라우트 노드를 통한 효율적인 경로 구성.


사용 방법 / 실행 단계

필수 조건 (중요):

  1. ComfyUI-GGUF 플러그인: 반드시 GitHub 저장소에서 ComfyUI-GGUF 플러그인을 설치해야 합니다. 이는 필수입니다.

  2. GGUF 모델 파일: 다음 양자화된 모델을 다운로드하세요:

    • Wan2.2-S2V-14B-Q2_K.gguf (Qwen 2SV\ 폴더에 저장)

    • umt5-xxl-encoder-q4_k_m.gguf

  3. 표준 모델: Wan2.1_VAE.safetensorswav2vec2_large_english.safetensors가 준비되어 있어야 합니다.

사용 지침:

  1. 이미지 로드: LoadImage 노드에서 시작 이미지를 선택하세요.

  2. 오디오 로드: LoadAudio 노드에서 .wav 또는 .mp3 파일을 선택하세요.

  3. 프롬프트 작성: Positive Prompt 노드에 장면을 설명하세요. Negative prompt는 사전 설정되어 있습니다.

  4. 프롬프트 실행: 워크플로우는 오디오를 인코딩하고, 양자화된 14B 모델을 통해 처리하며, 비디오를 생성합니다.

⏯️ 출력: 완성된 비디오는 ComfyUI의 output/video/ 폴더에 MP4 파일로 저장됩니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.