IndexTTS2_ Vocal and Emotional Transfer _ Two person Dialogue+Single person Speaking Workflow
詳細
ファイルをダウンロード
モデル説明
以下のリンクをクリックして、直接お試しください。効果が良ければ、ローカルにデプロイできます。
https://www.runninghub.ai/post/1968294270253838337/?inviteCode=sdhs0trb
ファン特典:登録で1000ポイント、毎日ログインで100ポイント、4090をプレイ!48GBの超パワーを体験してください。
https://buymeacoffee.com/a592991299o
これは人間の声と感情を再現するためのワークフローで、単一人物のスピーチまたは二人の会話の感情的なオーディオを生成できます。以前のモデルが生成する硬いボーカルよりも優れており、強く推奨します。ComfyUIのデプロイ難易度は比較的高いです。まず、transformerのバージョンは4.51.0である必要があります。JSON5モジュールが存在することを確認してください。
プロジェクトページ: https://github.com/billwuhao/ComfyUI_IndexTTS
モデルダウンロードリンク:
https://hf-mirror.com/nvidia/bigvgan_v2_22khz_80band_256x/tree/main
https://hf-mirror.com/funasr/campplus/tree/main
https://hf-mirror.com/IndexTeam/IndexTTS-2/tree/main
https://hf-mirror.com/amphion/MaskGCT/tree/main/semantic_codec
https://hf-mirror.com/facebook/w2v-bert-2.0/tree/main
モデル配置構造:
- bigvgan_v2_22khz_80band_256x
bigvgan_generator.pt
config.json
- campplus
campplus_cn_common.bin
- IndexTTS-2
│ .gitattributes
│ bpe.model
│ config.yaml
│ feat1.pt
│ feat2.pt
│ gpt.pth
│ README.md
│ s2mel.pth
│ wav2vec2bert_stats.pt
│
└─ qwen0.6bemo4-merge
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.safetensors
Modelfile
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json
- MaskGCT
semantic_codec
model.safetensors
- w2v-bert-2.0
.gitattributes
config.json
conformer_shaw.pt
model.safetensors
preprocessor_config.json
README.md
