Sentry Bot Voice (so-vits-svc model)

세부 정보

파일 다운로드

모델 설명

나는 폴아웃4의 세넨트봇의 음성 클립을 이용해 보컬 클론 AI를 훈련시켰다. 기본 훈련 설정(10000 에포크)을 사용했지만, 세넨트봇의 음성이 매우 단순했기 때문에 아마도 과도한 설정이었다...

어쨌든, 이 모델은 꽤 잘 작동하며 세넨트봇의 음성 특성(음역, 톤)을 잘 유지한다. 잘못된 부분이 있더라도 세ennes트봇의 음성이 이미 '노이지'이고 '정확하지 않다'는 특성 때문에 사실감이 느껴진다. 다만 세넨트봇 음성에서 볼 수 있는 높낮이 변화를 원한다면, 입력 오디오에 반드시 포함되어야 한다. 출력 품질에 관하여는, 입력 오디오에 천천히 명확하게 말하는 음성이 권장된다. 왜냐하면 세넨트봇은 그렇지 않으면 들을 수 없을 정도로 말이 흐릿하기 때문이다.

댓글 추천에 따라 이 모델을 실행할 수 있는 좋은 저장소 링크를 공유한다: https://github.com/voicepaw/so-vits-svc-fork

소스에서 설치하거나, README에 명시된 pip 명령어를 사용할 수 있다.

GUI가 있어 웨이트 파일, 관련 구성 파일, 변환하고 싶은 입력 오디오를 지정할 수 있다.

스테이블 디퓨전을 실행할 수 있다면, 5분 미만의 입력 오디오에 대해 이 AI는 5분 내에 잘 작동한다. 더 긴 오디오를 사용할 경우 더 많은 VRAM이 필요하지만, 긴 컬립을 짧은 조각으로 자르는 방식으로 해결할 수 있다.

출처:

이미지 출처: https://www.nexusmods.com/fallout4/mods/56150

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.