IndexTTS2_ Vocal and Emotional Transfer _ Two person Dialogue+Single person Speaking Workflow

詳細

ファイルをダウンロード

モデル説明

以下のリンクをクリックして、直接お試しください。効果が良ければ、ローカルにデプロイできます。

https://www.runninghub.ai/post/1968294270253838337/?inviteCode=sdhs0trb

ファン特典:登録で1000ポイント、毎日ログインで100ポイント、4090をプレイ!48GBの超パワーを体験してください。

https://buymeacoffee.com/a592991299o

これは人間の声と感情を再現するためのワークフローで、単一人物のスピーチまたは二人の会話の感情的なオーディオを生成できます。以前のモデルが生成する硬いボーカルよりも優れており、強く推奨します。ComfyUIのデプロイ難易度は比較的高いです。まず、transformerのバージョンは4.51.0である必要があります。JSON5モジュールが存在することを確認してください。

プロジェクトページ: https://github.com/billwuhao/ComfyUI_IndexTTS
モデルダウンロードリンク:
https://hf-mirror.com/nvidia/bigvgan_v2_22khz_80band_256x/tree/main
https://hf-mirror.com/funasr/campplus/tree/main
https://hf-mirror.com/IndexTeam/IndexTTS-2/tree/main
https://hf-mirror.com/amphion/MaskGCT/tree/main/semantic_codec
https://hf-mirror.com/facebook/w2v-bert-2.0/tree/main

モデル配置構造:

- bigvgan_v2_22khz_80band_256x
bigvgan_generator.pt
config.json
- campplus
campplus_cn_common.bin
- IndexTTS-2
│ .gitattributes
│ bpe.model
│ config.yaml
feat1.pt
feat2.pt
│ gpt.pth
README.md
│ s2mel.pth
│ wav2vec2bert_stats.pt

└─ qwen0.6bemo4-merge
added_tokens.json
chat_template.jinja
config.json
generation_config.json
merges.txt
model.safetensors
Modelfile
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json
- MaskGCT
semantic_codec
model.safetensors
- w2v-bert-2.0
.gitattributes
config.json
conformer_shaw.pt
model.safetensors
preprocessor_config.json
README.md

このモデルで生成された画像

画像が見つかりません。