摘要
本发明涉及一种语音驱动的高效果的数字人口型合成算法,通过引入lip‑reading expert、重新设计的lip‑sync expert、创新的参考帧选择策略、精心设计的双向特征融合模块和训练损失函数等技巧来提高数字人口型合成的效果。并且具备可控张嘴幅度和多语言支持的功能。
技术关键词
音频特征
音频编码器
生成对抗网络
图像编码器
语音
图像解码器
算法
注意力
表达式
多模态信息融合
短视频
人脸关键点
画面
代表
模块
人脸图片
系统为您推荐了相关专利信息
语音识别方法
陀螺仪
Sigmoid函数
注意力
融合特征
情感分析模型
偏好特征
语音生成模型
可读存储介质
电子设备
文本编码器
预测特征
查询特征
多模态
生成图像特征