MMAudio Batch Soundifier

세부 정보

파일 다운로드

모델 설명

동영상에 소리를 추가하기 위한 간단한 일괄 처리. NSFW 기능은 활성화되어 있지만 필수는 아님. 모든 일괄 작업에 사용하는 기본 forloop을 사용합니다. 소스 디렉토리와 대상 디렉토리를 지정하고, 폴더 내 비디오 수만큼 실행 버튼을 클릭하세요. 또는 지칠 때까지 클릭해도 됩니다. 차이가 없습니다. 처리한 내용을 추적하며, NSFW 비디오가 더 이상 없으면 자동으로 멈춥니다.

MMAudio는 24fps로 학습되었습니다. 더 높은 프레임레이트로 전환할 수 있는 버튼이 있지만, 몇 가지 작은 제한 사항이 있습니다(내부에 기재됨). 사실 지금 생각해보니, VHS 비디오 정보의 소스/로드 옵션을 고려하면 전환 버튼이 필요 없을 수도 있습니다. 모델은 지속 시간만 중요시하며, 이미지 입력 측에서 원하지 않는 부분은 자동으로 제거합니다. 따라서 24fps 미만의 입력을 주지 않는 한 큰 문제는 없습니다. 하지만 저는 이렇게 사용하며 잘 작동합니다.

1215초 구간도 처리해봤지만, 더 짧은 구간보다 품질이 떨어집니다. 제 의견으로는 89초가 최고의 품질을 제공합니다. 주로 수분짜리 컴포지션을 만들기 때문에, 완성된 컴포지션에 대해 생성하려면 먼저 구간으로 자르는 작업이 필요합니다. Shutter Encoder의 '분할' 기능이 이 작업을 매우 빠르게 수행할 수 있습니다. Premiere보다 훨씬 빠릅니다. 또한 처리 전에 긴 비디오를 분할해야 한다면, 동시에 24fps 출력을 강제로 설정하면 MMAudio의 처리 속도가 향상됩니다(60fps 비디오로 실행하는 것보다).

프롬프트는 최소한으로 유지하세요. NSFW 모델이 빈 부분을 채워줍니다. 필요한 경우에만 세부 사항을 추가하세요.

파일명은 자동으로 새 결합 작업으로 전달됩니다. 저는 주로 완성된 60fps 콘텐츠에 소리를 추가하므로, 비디오를 다시 저장할 필요가 없어 오디오 저장 노드를 포함했습니다.

보간 및 확대를 추가할 때는 주의하세요. 큰 워크플로우에 통합할 때 VRAM 정리 기능을 절제되고 신중하게 사용해야 할 수 있습니다. 오디오 처리를 위해 저프레임레이트를 사용하면서 출력을 보간된 결합으로 보내는 경우, 문제가 발생할 수 있습니다. 처음부터 오디오 추가를 목표로 작업할 때는, WAN 디코딩 직후 또는 업스케일링 후에 전용 24fps 폴더를 설정하는 것을 선호합니다(업스케일링은 오디오 모델이 이미지 내용을 더 잘 인식하는 데 도움이 됩니다). 이렇게 하면 NG인 비디오 처리에 시간을 낭비하지 않습니다.

보간 기능이 포함된 워크플로우. (NSFW) Dead-Simple MMAudio + RIFE Interpolation Setup for WAN 2.2 I2V 14B

SeoulSeeker 님께서 MMAudio가 제가 마지막으로 사용한 이후 얼마나 향상되었는지 제게 알려주셨습니다. 아시다시피, 이는 보통 최대 몇 주 안에 일어나는 일입니다.

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.