摘要
本发明公开了一种即插即用的语义特征解耦方法,包括:利用包含大规模音频‑文本对齐数据的大型音频文本语料数据库训练 Wav2Sem 模块,使其能够学习音频语义特征并解耦近音词之间的语义信息;将 Wav2Sem 模块插入现有的自监督预训练音频编码器;使用新音频编码器替换现有语音驱控框架中的音频编码器,并对新编码器进行训练;利用训练后的新音频编码器对输入语音信号进行特征提取,生成时间序列特征,并映射到三维面部模型的参数空间,最终驱动虚拟人脸部动画。根据本发明技术方案,解决了现有技术中因语音特征耦合而导致的唇形生成不准确和不自然的问题。
技术关键词
解耦方法
音频编码器
时间卷积网络
特征提取模块
语义特征提取
时间序列特征
短时特征
文本
注意力机制
说话人身份
前馈神经网络
动画
音频特征
语音特征
面部
系统为您推荐了相关专利信息
时间序列特征
空闲时间预测
系统日志
特征提取模型
配置检测方法
无人机场景
图像分割模型
监督图像分割方法
特征提取模块
图像编码器