Sentry Bot Voice (so-vits-svc model)

详情

下载文件

模型描述

我使用《辐射4》中哨兵机器人(Sentry Bot)的语音片段训练了这个歌声克隆AI。我使用了默认的训练设置,即10000个训练周期——不过考虑到哨兵机器人语音的简单性,这可能有些过度了……

不管怎样,效果还不错,AI很好地保留了哨兵机器人语音的“音频细节”,即使出错时听起来依然可信(因为哨兵机器人的语音本就带有“嘈杂”和“不精确”的特点)。然而,如果你想在输出中保留哨兵机器人语音中的音高变化,必须在输入音频中包含这些音高变化。关于输出质量,建议输入音频以缓慢清晰的方式朗读,因为哨兵机器人本身说话方式就是这样,否则其语音难以听清。

根据评论建议,这里提供一个可以运行该模型的良好代码库链接:https://github.com/voicepaw/so-vits-svc-fork

你可以选择从源码安装,或按照 README 中指定的 pip 命令进行安装。

该工具提供图形界面,你可以指定权重文件、对应的配置文件,以及想要转换的输入音频。

如果你能运行稳定扩散(Stable Diffusion),那么这个AI在输入音频不超过5分钟的情况下应该能在5分钟内完成运行,不过更长的音频需要更多的显存(但你可以简单地将长片段切分为短段处理)。

源图片出处:https://www.nexusmods.com/fallout4/mods/56150

此模型生成的图像

未找到图像。