人脸表情特效 语音驱动人脸表情
1)使用 DeepSpeech, 一个预训练的语音到文本模型。由于其庞大的训练语料库(数百小时的演讲),将它作为音频特征提取器可提供对于不同音频源的鲁棒性。
2)对说话者风格的调节使得能够跨受试者进行训练(即如果没有调节,跨对象的回归训练会获得非常平均化的面部运动),并在测试时间内合成说话人风格的组合。
3)从面部运动中分解个体身份使我们能够为各种各样的成人面孔制作动画。
4)使用样本网格拓扑作为公共可用的 FLAME 全头模型,允许我们从三维扫描或图像重建获取特定对象的 3D 头模板。