Wan 2.2 Video + Voice + Motion Control All-In-One workflow optimized for RTX 3060 12 GB VRAM GPU

세부 정보

모델 설명

특별한 감사의 말을:

@soulseeker에게 지식을 공유해주고 첫 번째 핵심 힌트를 제공해 주셔서 감사합니다.

기능:

이 워크플로우는 오디오가 포함된 "단순한" 비디오를 반자동으로 생성합니다. 저는 이를 일체형 솔루션으로 설계했습니다. 시작 이미지 하나만 있으면 됩니다.

- RTX 3060 (12GB VRAM), 32GB RAM 및 큰 스왑 파일(최소 32-64GB)에서 완벽하게 작동합니다.

- 간편한 설치 (필요한 모든 모델이 링크되어 있음).

- 스위치 옵션을 통해 간편하게 사용 가능.

- 고품질 출력.

이 워크플로우는 4개의 간단한 단계로 구성됩니다:

  1. 간단한 오디오 생성을 위한 텍스트-투-스피치(Edge TTS)

  2. DWPose용 모션 제어 비디오 생성

  3. InfiniteTalk: 모션 제어 및 오디오 동기화된 LQ 비디오 생성

  4. 부드러운 고품질 출력을 위한 업스케일링 및 프레임률 증가

약 5초 분량의 비디오는 잘 작동할 것입니다. 8~10초까지 생성할 수도 있지만, 아직 테스트해보지 않았습니다.

이 워크플로우는 초기 "알파" 단계에 있습니다. 기술적으로 모든 기능이 작동해야 합니다. 따라서 첫 번째 단순한 테스트 및 즐거움을 위한 좋은 기반이라고 생각합니다 🙂

하지만 분명히 개선할 점이 많다고 확신합니다. 예를 들면:

- 강조, 속도, 정지 등 더 나은 오디오 제어를 위한 훨씬 나은 텍스트-투-스피치 솔루션

- 개선된 모션 및 카메라 제어 등

주의:

이 워크플로우는 더 고급 사용자를 위한 것입니다. 설치 및 사용은 매우 간단하지만, 이 워크플로우는 테스트 및 개발을 위한 기반일 뿐이며, 사용하려면 일부 ComfyUI 지식이 필요할 수 있습니다. 설치 및 ComfyUI 관련 지원은 여기서 제공하지 않음을 양해해 주세요.

비디오 생성 및 복잡한 워크플로우에 초보자라면, 제 다른 워크플로우 비디오 생성을 추천드립니다. 이 워크플로우는 잘 테스트되었으며, 훨씬 더 잘 문서화되고 주석이 달려 있습니다.

이 워크플로우는 공식 템플릿과 이미 공개된 다양한 워크플로우를 기반으로 합니다. 저는 단순히 여러 부품을 조합하여 사용하기 쉬운 "디자인"을 만들고, 모든 것을 12GB VRAM에 최적화했습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.