摘要
本发明涉及一种语音驱动的时效性强的数字人口型合成算法,本发明通过引入lip‑reading expert和预训练视频自动编码器作为监督,精心设计的特征融合模块和训练损失函数等技巧来提高数字人口型合成的效果,通过逐通道卷积、线性注意力等技巧来提高数字人口型合成的速度。并且具备可控张嘴幅度和多语言支持的功能。
技术关键词
音频特征
时效性
图像编码器
音频编码器
生成对抗网络
注意力
语音
图像解码器
算法
表达式
自动编码器
多模态信息融合
短视频
人脸关键点
模块
画面
系统为您推荐了相关专利信息
多尺度特征学习
多尺度卷积神经网络
频域特征
频谱特征
语音
动态推荐方法
审核规则
生成对抗网络
多模态特征融合
文本特征向量
多场景模式
软件管理系统
对音视频
可视化工具
标签
生成对抗网络模型
数字岩心重构方法
多组分结构
岩心图像
样本