Wan 2.2 14B S2V Ultimate Suite: GGUF & Lightning Speed with Extended Video Generation

세부 정보

파일 다운로드

모델 설명

🎬 서론

Wan 2.2 14B 사운드-투-비디오(S2V) 모델의 놀라운 잠재력을 완전히 끌어내기 위해 설계된 강력한 ComfyUI 워크플로우에 오신 것을 환영합니다. 이는 단순한 구현이 아니라, AI 영상 생성을 위한 두 가지 핵심 요구사항인 접근성속도를 해결하는 종합적인 도구입니다.

이 모든 것을 한 번에 제공하는 워크플로우는 두 개의 병렬 생성 파이프라인을 제공합니다:

  1. ⚡ 빠른 속도(4단계) 파이프라인: 특수 LoRA를 사용하여 몇 분의 일 초 만에 영상을 생성하며, 빠른 프로토타이핑과 반복에 이상적입니다.

  2. 🎨 고화질(20단계) 파이프라인: 출력물에 최고의 시각적 품질을 요구할 때 사용하는 전통적인 고화질 생성 프로세스입니다.

중요하게도, 두 버전 모두 GGUF 양자화 모델을 사용하도록 구성되어 있어 VRAM 요구량을 크게 줄이고, 소비자용 하드웨어를 가진 사용자라도 이 140억 파라미터 규모의 모델을 사용할 수 있게 합니다.


✨ 주요 기능 및 핵심 강점

  • 이중 모드 작동: 하나의 JSON 파일 안에 속도와 품질을 선택할 수 있는 두 개의 독립된 워크플로우를 제공합니다. 원하는 섹션을 손쉽게 활성화/비활성화할 수 있습니다.

  • GGUF 양자화 지원: 전문용 GPU 없이도 거대한 Wan 2.2 모델을 실행할 수 있습니다. LoaderGGUFClipLoaderGGUF 노드를 활용합니다.

  • 연장된 영상 생성: 워크플로우에는 내장된 “Video S2V Extend” 하위 그래프가 포함되어 있습니다. 각 하위 그래프는 77프레임을 추가합니다. 템플릿에는 기본적으로 두 개의 확장기가 설정되어 있어 16fps 기준 약 5초의 영상이 생성됩니다. 더 긴 영상을 원하시면 확장기 노드를 복사해 붙여넣기만 하면 됩니다!

  • 오디오 기반 애니메이션: S2V 모델의 핵심 기능을 정확히 구현합니다. 업로드한 오디오 파일(예: 음악, 대화)에 맞춰 참조 이미지를 동기화하여 애니메이션합니다.

  • 스마트 첫 프레임 보정: VAE 디코더에 의해 종종 “과도하게 처리”되는 첫 번째 프레임을 교정하는 지능적인 해킹 기법을 포함합니다.

  • 상세한 문서화: 워크플로우 자체에 배치된 정보 노트와 마크다운 노드를 통해 배치 크기, 청크 길이 등 핵심 설정을 설명합니다.


🧩 작동 원리 (뒷면의 마법)

워크플로우는 명확한 단계로 논리적으로 구성되어 있습니다:

  1. 모델 로드(GGUF): LoaderGGUFClipLoaderGGUF 노드는 양자화된 UMT5 텍스트 인코더와 주 UNet 모델을 로드하여, 정밀도가 높은 모델 대비 VRAM 부하를 크게 줄입니다.

  2. 입력 업로드: 두 가지 핵심 요소를 제공합니다:

    • ref_image**: 애니메이션할 시작 이미지(예: 캐릭터 초상화).

    • audio**: 애니메이션의 동작과 속도를 제어할 오디오 파일.

  3. 프롬프트 및 오디오 인코딩: 긍정적/부정적 프롬프트가 처리되고, 오디오 파일은 Wav2Vec2 인코더를 사용해 모델이 이해할 수 있는 형식으로 인코딩됩니다.

  4. 기초 생성 (WanSoundImageToVideo): 핵심 노드가 이미지, 오디오, 프롬프트를 입력받아 첫 번째 잠재적 영상 시퀀스를 생성합니다.

  5. 영상 확장 (Video S2V Extend 하위 그래프): 이 단계에서 길이가 결정됩니다. 이전 단계의 잠재적 출력은 오디오 컨텍스트와 함께 샘플러(KSampler)에 입력되어 다음 프레임 조각을 생성합니다. 이 조각들은 연결되어 하나의 영상이 됩니다.

  6. 디코딩 및 통합: 최종 잠재 표현은 VAE에 의해 이미지로 디코딩되고, CreateVideo 노드가 모든 프레임을 원본 오디오와 결합하여 최종 MP4 파일을 생성합니다.


⚙️ 사용법 및 실행 방법

사전 준비: 모델 다운로드

다음 모델 파일을 다운로드하여 ComfyUI의 models 디렉토리에 저장해야 합니다. 워크플로우에는 직접 다운로드 링크가 포함된 편리한 마크다운 노트가 제공됩니다.

필수 모델:

  • umt5-xxl-encoder-q4_k_m.gguf/models/clip/에 저장

  • Wan2.2-S2V-14B-Q5_0.gguf/models/unet/ (또는 /models/diffusion/)에 저장

  • wav2vec2_large_english_fp16.safetensors/models/audio_encoders/에 저장

  • wan_2.1_vae.safetensors/models/vae/에 저장

4단계 빠른 파이프라인용:

  • Wan2.2-Lightning_T2V-v1.1-A14B-4steps-lora_HIGH_fp16.safetensors/models/loras/에 저장

워크플로우 로드

  1. 제공된 video_wan2_2_14B_s2v.json 파일을 다운로드하세요.

  2. ComfyUI에서 JSON 파일을 창에 드래그 앤 드롭하거나, "Load" 버튼을 사용하세요.

워크플로우 실행

  1. 미디어 업로드:

    • "LoadImage" 노드에 애니메이션할 시작 이미지를 업로드하세요.

    • "LoadAudio" 노드에 음악 또는 오디오 파일을 업로드하세요.

  2. 프롬프트 입력:

    • "CLIP Text Encode (Positive Prompt)" 노드의 텍스트를 수정하세요.

    • 부정적 프롬프트는 이미 강력한 표준 부정적 프롬프트로 채워져 있습니다.

  3. 파이프라인 선택:

    • 4단계 빠른 파이프라인 사용(빠름): LoraLoaderModelOnly 노드가 빠른 LoRA 파일을 올바르게 가리키고 있는지 확인하세요. 해당 섹션의 Steps 프리미티브 노드는 이미 4로, CFG1로 설정되어 있습니다.

    • 20단계 파이프라인 사용(고화질): 하단 섹션은 이미 설정되어 있습니다. Steps20, CFG6.0으로 설정되어 있습니다. 이 파이프라인만 실행하려면 20단계 섹션 전체를 선택한 후 Ctrl+B를 눌러 4단계 섹션을 비활성화하세요.

  4. 프롬프트 큐잉! 오디오에 따라 이미지가 살아나는 모습을 관찰하세요.


⚠️ 중요한 참고사항 및 팁

  • 배치 크기 설정: "Batch sizes" 값(기본값 3)은 전통적인 배치 크기가 아닙니다. 이 값은 1 + [Video S2V Extend 하위 그래프 수]로 설정해야 합니다. 이 워크플로우는 확장기를 2개 포함하므로 값은 3입니다. 확장기를 하나 더 추가하면 값은 4로 변경하세요.

  • 청크 길이: 기본값은 77 프레임입니다. 이는 모델의 요구사항이며, 경험 없이 변경하지 마세요.

  • 빠른 LoRA의 단점: 4단계 LoRA는 매우 빠르지만, 20단계 생성에 비해 일관성과 품질이 약간 떨어질 수 있습니다. 빠르게 적절한 시드와 구성 요소를 찾는 데 최적입니다.

  • GGUF vs. Safetensors: 이 워크플로우는 텍스트 및 UNet 모델에 GGUF를 사용해 VRAM을 절약합니다. 충분한 VRAM을 보유하고 있다면, LoaderGGUFClipLoaderGGUF 노드를 표준 UNETLoaderCLIPLoader 노드로 교체하여 .safetensors 모델을 사용할 수 있으며, 이는 약간 더 나은 품질을 제공할 수 있습니다.


🎭 예시 결과

프롬프트: “남자가 기타를 연주하고 있다. 그는 손을 바라보며 기타를 연주하고 부드럽고 애정 어린 목소리로 노래한다.”
오디오: 부드러운 어쿠스틱 기타 트랙

(이 워크플로우로 생성된 짧은 영상 예시를 여기에 삽입하세요)


📁 다운로드 및 링크

  • 이 워크플로우 JSON 다운로드: [업로드한 JSON 파일 링크]

  • 공식 Wan 2.2 모델 저장소: HuggingFace - Comfy-Org/Wan_2.2_ComfyUI_Repackaged

  • 필수 GGUF 모델: Hugging Face에서 Wan2.2-S2V-14B-Q5_0.ggufumt5-xxl-encoder-q4_k_m.gguf를 검색하세요.


💎 결론

이 워크플로우는 강력한 Wan 2.2 S2V 모델을 실행하는 과정을 쉽게 만들어줍니다. GGUF 지원과 이중 파이프라인 접근 방식을 통합하여, 하드웨어가 제한적인 사용자들도 놀라운 오디오 동기화 애니메이션을 실험하고 제작할 수 있게 합니다. 빠른 Lightning LoRA로 빠르게 반복하거나, 완전한 20단계 과정으로 걸작을 만들거나, 이 도구 모음은 모든 요구를 충족합니다.

즐거운 생성 되세요! 훌륭한 결과물이나 질문은 댓글로 남겨주세요.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.