InfiniteTalk TTS BGM Foley US IP

세부 정보

파일 다운로드

모델 설명

VibeVoice → ACE-Step → MMAudio → WAN 비디오 생성 워크플로우

(ComfyUI용 이미지에서 비디오로 전환 파이프라인)

이 워크플로우는 단일 완성된 이미지를 사실적인 움직임, 적응형 배경 음악 및 맥락에 맞는 사운드 디자인을 갖춘 짧은 시네마틱 클립으로 변환합니다.

이 워크플로우는 이미 렌더링된 캐릭터를 가지고 있으며, 표현적인 움직임과 배경의 깊이를 통해 이를 생동감 있게 만들고자 하는 창작자들을 위해 설계되었습니다.

핵심 단계

VibeVoice(음성 및 표정): 캐릭터가 장면 내에서 자연스럽게 대사를 전달할 수 있도록 감정 톤에 맞춰 대화나 독백을 생성합니다.

ACE-Step(배경 음악): 감정적 의도와 템포에 맞는 BGM을 생성합니다.

MMAudio(포일리 및 배경 음향): 몰입감을 높이기 위해 사실적인 실내 음향과 사운드 힌트를 층층이 추가합니다. 이 워크플로우에서 사용되는 포일리는 비디오 입력에 기반하지 않고 설명을 통해 생성됩니다.

WAN 2.1 I2V 480 또는 720(움직임 및 톤): 자연어 톤 프롬프트를 통해 생동감 있는 움직임과 카메라 동작을 추가합니다.

업스케일링: 이 워크플로우는 1× 디테일 업스케일러 패스(피부 질감 및 엣지 개선에 적합)를 포함하지만, 원하는 어떤 업스케일러로도 교체할 수 있습니다.

프레임 보간: 통합된 보간 기능이 생성된 프레임 사이의 움직임을 부드럽게 하여 더 깨끗한 재생 및 자연스러운 캐릭터 움직임을 제공합니다.

사용자 참고사항

ComfyUI 내에서 오디오 생성은 설정이 복잡할 수 있습니다.

이 워크플로우는 필요한 종속성 및 노드 팩을 내장된 설명으로 제공하지만, 사용자는 일부 환경 설정 문제를 예상해야 합니다.

설정이 완료되면, 정지된 이미지에서 움직임, 음악, 포일리 및 보간이 포함된 완성된 오디오비주얼 장면까지 전 과정이 자동으로 실행됩니다.

이 워크플로우는 5090 GPU를 장착한 머신에서 최적화된 설정을 포함하고 있습니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.