WAN2.2 S2V QuantStack - GGUF 14B Sound-to-Video
세부 정보
파일 다운로드
모델 설명
사운드-to-비디오의 혁신적인 효율성. 이 혁명적인 워크플로우는 UNET 및 CLIP에 완전히 양자화된 GGUF 모델을 활용하여, 소비자 하드웨어에서 140억 파라미터의 WAN2.2 S2V 모델을 실행합니다. VRAM 요구량이 극적으로 줄어들어, 진정한 오디오 기반 애니메이션을 누구나 경험할 수 있습니다. CPU/GPU 하이브리드 실행을 지원합니다.
워크플로우 설명
이 워크플로우는 강력한 WAN2.2 사운드-투-비디오 14B 모델에 대한 접근을 일반 사용자에게 확장하기 위해 설계된 기술적 걸작입니다. ComfyUI-GGUF 플러그인을 활용해 UNET 및 CLIP 모델을 고도로 압축된 양자화된 GGUF 형식으로 로드합니다. 이는 다음과 같은 이점을 제공합니다:
거대한 VRAM 절감: Q2_K 양자화된 UNET는 14B 모델을 VRAM이 8~10GB만 있는 GPU나 심지어 강력한 CPU 시스템에서도 실행할 수 있게 합니다.
하이브리드 실행: 어떤 하드웨어 환경에서도 성능을 극대화하기 위해 GPU와 CPU 간 레이어를 원활하게 분산 처리합니다.
완전한 품질 기능 유지: 압축에도 불구하고 오디오 기반 애니메이션, 고품질 출력, 전문 비디오 인코딩 등 모든 S2V 기능을 그대로 활용할 수 있습니다.
이것은 14B S2V 모델이 불가능하다고 생각했던 사용자들을 위한 최종 솔루션입니다. 지금 바로 실행할 수 있습니다.
기능 및 기술 세부 사항
🧩 양자화 스택 (마법의 핵심):
UNET (GGUF):
Wan2.2-S2V-14B-Q2_K.gguf- 핵심 비디오 생성 모델로, 극도의 효율성을 위해 2비트로 양자화되었습니다.CLIP (GGUF):
umt5-xxl-encoder-q4_k_m.gguf- 텍스트 인코더로, 최적의 성능을 위해 4비트로 양자화되었습니다.VAE:
Wan2.1_VAE.safetensors- 최고의 시각적 품질을 위해 일반 방식으로 로드됩니다.오디오 인코더:
wav2vec2_large_english.safetensors- 입력 오디오를 모델에 맞게 인코딩합니다.
🎬 핵심 기능:
진정한 사운드-투-비디오: 생성된 애니메이션은 입력 오디오의 특성에 직접적으로 영향을 받습니다.
자동 길이 계산: 입력 오디오 파일의 지속시간에 따라 정확한 비디오 프레임 수(
length)를 자동으로 계산합니다.스마트 이미지 전처리: 입력 이미지를 원래 가로세로 비율을 유지한 채 애니메이션에 최적화된 크기(0.2 메가픽셀)로 자동 조정합니다.
전문적 출력:
VHS_VideoCombine을 사용해 오디오와 정확히 동기화된 최종 MP4 비디오를 렌더링합니다.
⚙️ 최적화된 파이프라인:
이해하고 사용하기 쉬운 정리된 노드 레이아웃.
워크플로우를 명확하게 유지하기 위한 리라우트 노드를 통한 효율적인 경로 구성.
사용 방법 / 실행 단계
필수 조건 (중요):
ComfyUI-GGUF 플러그인: 반드시 GitHub 저장소에서
ComfyUI-GGUF플러그인을 설치해야 합니다. 이는 필수입니다.GGUF 모델 파일: 다음 양자화된 모델을 다운로드하세요:
Wan2.2-S2V-14B-Q2_K.gguf(Qwen 2SV\폴더에 저장)umt5-xxl-encoder-q4_k_m.gguf
표준 모델:
Wan2.1_VAE.safetensors및wav2vec2_large_english.safetensors가 준비되어 있어야 합니다.
사용 지침:
이미지 로드:
LoadImage노드에서 시작 이미지를 선택하세요.오디오 로드:
LoadAudio노드에서.wav또는.mp3파일을 선택하세요.프롬프트 작성: Positive Prompt 노드에 장면을 설명하세요. Negative prompt는 사전 설정되어 있습니다.
프롬프트 실행: 워크플로우는 오디오를 인코딩하고, 양자화된 14B 모델을 통해 처리하며, 비디오를 생성합니다.
⏯️ 출력: 완성된 비디오는 ComfyUI의 output/video/ 폴더에 MP4 파일로 저장됩니다.

