IndexTTS2_ Vocal and Emotional Transfer _ Two person Dialogue+Single person Speaking Workflow

세부 정보

파일 다운로드

모델 설명

아래 링크를 클릭하여 직접 시도할 수 있습니다. 효과가 좋다면 로컬에 배포할 수 있습니다.

https://www.runninghub.ai/post/1968294270253838337/?inviteCode=sdhs0trb

팬 혜택: 등록하면 1000포인트 증정, 매일 로그인 시 100포인트, 4090 플레이! 48G의 초강력 경험을 해보세요.

https://buymeacoffee.com/a592991299o

이 워크플로우는 인간의 목소리와 감정을 재현하여 단일 인물의 연설이나 두 명의 대화에 대한 감정적인 오디오를 생성합니다. 이전의 딱딱한 보컬을 생성하던 모델보다 훨씬 우수하며 강력히 추천합니다. ComfyUI의 배포 난이도는 상대적으로 높습니다. 먼저 transformer 버전이 4.51.0이어야 하며, JSON5 모듈이 존재해야 합니다.

프로젝트 페이지: https://github.com/billwuhao/ComfyUI_IndexTTS

모델 다운로드 링크:
https://hf-mirror.com/nvidia/bigvgan_v2_22khz_80band_256x/tree/main
https://hf-mirror.com/funasr/campplus/tree/main
https://hf-mirror.com/IndexTeam/IndexTTS-2/tree/main
https://hf-mirror.com/amphion/MaskGCT/tree/main/semantic_codec
https://hf-mirror.com/facebook/w2v-bert-2.0/tree/main

모델 배치 구조:

- bigvgan_v2_22khz_80band_256x
bigvgan_generator.pt
config.json
- campplus
campplus_cn_common.bin
- IndexTTS-2
│ .gitattributes
│ bpe.model
│ config.yaml
feat1.pt
feat2.pt
│ gpt.pth
README.md
│ s2mel.pth
│ wav2vec2bert_stats.pt

└─ qwen0.6bemo4-merge
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.safetensors
Modelfile
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json
- MaskGCT
semantic_codec
model.safetensors
- w2v-bert-2.0
.gitattributes
config.json
conformer_shaw.pt
model.safetensors
preprocessor_config.json
README.md

이 모델로 만든 이미지

이미지를 찾을 수 없습니다.