WAN2.2 S2V Pro - AI Sound-to-Video Suite with Voice Cloning

텍스트와 이미지를 넘어선 경험. 이 혁신적인 워크플로우는 소리를 AI 애니메이션의 핵심 동력으로 활용합니다. 단일 이미지와 어떤 오디오 입력이든 주어지면, 소리에 정밀하게 동기화된 놀라운 비디오를 생성할 수 있습니다. 통합 음성 클로닝(TTS) 기능을 통해 스크립트만으로도 완성된 내레이션 영상을 만들 수 있습니다. WAN2.2의 14B 소리-영상 모델을 활용해 진정한 다감각 AI 경험을 즐기세요.

워크플로우 설명

AI 비디오 생성의 다음 세대로의 문을 열었습니다. 이 워크플로우는 특화된 WAN2.2 S2V(Sound-to-Video) 14B 모델을 사용하여 오디오 소스와 본질적으로 연결된 애니메이션을 생성합니다. 이 모델은 단순히 오디오를 겹치는 것이 아니라, 오디오의 특성(대화, 음악, 사운드 이펙트)을 활용해 생성된 비디오의 움직임과 역동성을 직접적으로 영향을 줍니다.

소리-영상의 마법:

내레이션 기반 애니메이션: 문장을 말하면, 캐릭터의 움직임이 말의 패턴에 부드럽게 동기화됩니다.
음악 비디오 효과: 음악 트랙을 입력하면, 애니메이션의 움직임과 흐름이 리듬과 템포에 반응하는 것을 확인할 수 있습니다.
완전한 스토리텔링: 통합 음성 클로닝 기능을 통해 단일 캐릭터 이미지와 스크립트만으로 완전한 내레이션 스토리를 생성할 수 있습니다.

이것은 단순한 애니메이션 도구가 아닙니다. 오디오와 시각 AI의 시너지를 탐구하는 콘텐츠 제작자, 스토리텔러, 예술가들을 위한 강력한 파이프라인입니다.

기능 및 기술적 세부사항

🧩 핵심 구성 요소:

모델: wan2.2_s2v_14B_bf16.safetensors (특화된 소리-영상 모델)
VAE: wan_2.1_vae.safetensors
CLIP: umt5_xxl_fp8_e4m3fn_scaled.safetensors
오디오 인코더: wav2vec2_large_english_fp16.safetensors (모델에 오디오를 인코딩)

🎙️ 통합 음성 클로닝(TTS):

노드: ChatterBoxVoiceTTSDiogod
기능: 텍스트에서 현실적인 음성을 생성하며, 참조 오디오 파일(GG_Audio.mp3)을 사용해 음성을 클로닝할 수 있습니다.
사용 사례: 노드에서 내레이션 스크립트를 작성하면, 이를 기반으로 오디오를 생성하고, 그 오디오가 비디오 애니메이션을 구동합니다.

🎬 출력 및 인코딩:

유연한 출력: 최대 호환성을 위해 여러 형식으로 저장됩니다:
- 오디오 포함 MP4 비디오: CreateVideo + SaveVideo 노드를 통해 생성.
- 애니메이션 WEBP: 고품질, 작은 파일 크기의 반복 영상에 적합.
- WEBM: 현대적인 비디오 형식.
- VHS_VideoCombine: 추가 인코딩 옵션 제공.
자동 길이 계산: 워크플로우는 오디오 파일의 지속 시간에 따라 비디오 길이를 자동으로 계산합니다.

사용법 / 실행 단계

필수 조건:

특화된 모델: 표준 T2V/I2V 모델과는 다른 wan2.2_s2v_14B_bf16.safetensors 모델을 반드시 보유해야 합니다.
ComfyUI Manager: 누락된 커스텀 노드(특히 오디오 길이 노드용 comfy-mtb)를 설치하기 위해 필요합니다.
오디오 파일: 오디오 파일(예: input_wan2.2_s2v.wav)을 준비하거나 내장된 TTS를 사용합니다.

방법 1: 본인 오디오 파일 사용

이미지 로드: LoadImage 노드에서 시작 이미지(예: 캐릭터 초상화)를 선택합니다.
오디오 로드: LoadAudio 노드에서 .wav 또는 .mp3 파일을 선택합니다.
프롬프트 작성: Positive Prompt 노드에서 캐릭터/장면을 설명합니다. Negative prompt는 이미 설정되어 있습니다.
프롬프트 실행: 오디오가 인코딩되어 이미지를 애니메이션화합니다.

방법 2: 음성 클로닝(TTS)을 통한 오디오 생성

이미지 로드: 위와 동일하게 시작 이미지를 선택합니다.
음성 참조 제공: 하단의 LoadAudio 노드에 클로닝할 목소리의 짧은 샘플(GG_Audio.mp3)을 제공합니다.
스크립트 작성: ChatterBoxVoiceTTSDiogod 노드의 텍스트를 원하는 대사로 변경하세요. 예: "이것은 Wan 2.2 S2V의 테스트입니다. 결과에 어떻게 생각하시나요?"
프롬프트 실행: 워크플로우는 다음과 같이 동작합니다:
- 클로닝된 음성으로 텍스트에서 오디오를 생성합니다.
- 새로 생성된 오디오를 사용해 비디오 애니메이션을 구동합니다.
- 동기화된 오디오가 포함된 최종 비디오를 저장합니다.

⏯️ 출력: 비디오는 ComfyUI의 output/ 폴더에 선택한 형식(MP4, WEBP, WEBM)으로 저장됩니다.

팁 & 트릭

오디오 품질: 최고의 결과를 얻으려면 배경 잡음이 없는 명확한 오디오 파일을 사용하세요. 모델은 오디오를 인코딩하므로 품질이 매우 중요합니다.
프롬프트는 여전히 핵심: 소리는 움직임을 주도하지만, 텍스트 프롬프트는 캐릭터와 스타일을 정의합니다. "미소 짓고 말하는 사람"이라는 프롬프트는 일반적인 프롬프트보다 대화와 더 잘 어울립니다.
오디오 실험: 다양한 유형의 오디오를 시도하세요! 음악, 사운드 이펙트, 대화는 각각 독특한 움직임 스타일을 만들어냅니다.
길이 계산: MathExpression 노드는 비디오 길이를 (audio_duration_in_ms/1000)*16_fps로 계산합니다. 동일한 오디오 클립에 더 길거나 짧은 비디오를 원하면 이 공식을 조정할 수 있습니다. 예: (a/1000)*8로 8fps의 슬로우모션 효과 생성.
문제 해결: 오류가 발생하면, 먼저 표준 Wan 모델이 아닌 정확한 wan2.2_s2v_14B_bf16.safetensors 모델이 있는지 확인하세요.

이 워크플로우는 AI 비디오 생성의 흥미롭고 덜 탐구된 가능성을 보여줍니다. 자동 콘텐츠 생성, 동적 음악 비주얼, 개인화된 스토리텔링에 놀라운 가능성을 열어줍니다.

소리가 주도할 때 당신이 만들어낼 콘텐츠를 기대합니다!

모델 유형	워크플로우
기본 모델	Wan Video 2.2 I2V-A14B
게시일	8/27/2025

WAN2.2 S2V Pro - AI Sound-to-Video Suite with Voice Cloning

세부 정보

파일 다운로드

모델 설명