【VITS在线训练】AI嘉然手把手教你使用VITS快速克隆任意角色声音
尽可能地补全了前两期视频BV1Jg4y1E7df和BV1jo4y1e71H遗漏的细节,同时改进了训练流程以大大提高了训练出来的模型质量。
github项目地址:https://github.com/Plachtaa/VITS-fast-fine-tuning
colab在线训练笔记本:https://colab.research.google.com/drive/1pn1xnFfdLK63gVXDwV4zCXfVeo8c-I-0?usp=sharing
特别感谢@Saya睡大觉中 提供的预训练模型,真的训练得非常棒
关于提升训练质量的技巧:
1. 视频&长音频中,应该只有单说话人,即你想要训练的角色声音;
2. 短音频的质量比数量更重要,如果发音不标准的话,短音频标注更容易出错;
3. 一次只训练一个新角色;
4. 勾选辅助数据;
5. 100 epochs拉满往往比默认的40 epochs效果更好,但是要多花一倍的时间。
6. 预训练模型的质量很重要,@Saya睡大觉中 训练的这个模型中文水平强多了,没有大佐口音
本项目主要是最大化利用没有标注也没有切片的数据,节省数据集准备的时间开销(输入视频链接训练它实在是太快了)。如果你持有的是已标注的数据,可以使用另一种解决方案 BV1yj411N7rt