Sentry Bot Voice (so-vits-svc model)

詳細

ファイルをダウンロード

モデル説明

私はフォールアウト4のセンチーボットの音声クリップを用いて、歌唱音声クローンAIをトレーニングしました。デフォルトのトレーニング設定(10000エポック)を使用しましたが、センチーボットの声のシンプルさを考えれば、おそらく過剰だったかもしれません……

とはいえ、それなりにうまく機能しており、AIはセンチーボットの声の「音声ディテール」を忠実に保持しています。また、誤って出力を生成しても、そもそもセンチーボットの声は「ノイズが多い」かつ「不正確」なため、信じられないほどではないものです。ただし、センチーボットの声に見られるピッチの変化を再現したい場合は、入力音声にそれらを含める必要があります。出力品質については、入力音声はゆっくりとはっきりと話すことが推奨されます。というのは、センチーボットの声はそうでなければ聞き取りづらいからです。

コメントでのご要望に応じて、本モデルを実行できる優れたリポジトリのリンクを以下に示します: https://github.com/voicepaw/so-vits-svc-fork

ソースからインストールするか、READMEに記載されているpipコマンドを使ってインストールできます。

GUIが用意されており、ウェイトファイルと関連する設定ファイル、変換したい入力音声を指定できます。

Stable Diffusionを実行できる環境であれば、5分以内の音声入力でこのAIも問題なく動作します。より長い音声の場合はVRAMが余分に必要になりますが、長い音声を分割して処理することも可能です。

元画像のソース: https://www.nexusmods.com/fallout4/mods/56150

このモデルで生成された画像

画像が見つかりません。