摘要
本申请提出一种语音识别方法、装置、设备和计算机程序产品,该方法能够从语音识别对象的图像中提取图像特征,从语音识别对象的音频中提取语音特征,其中图像特征包括唇部动作特征、手势特征以及面部表情特征。然后根据语音识别对象所处的光线条件和声学条件等,分别确定图像特征和语音特征的权重。最后根据图像特征和语音特征的权重,对图像特征和语音特征进行加权融合得到融合特征,通过融合特征确定语音识别结果。如此设置,可以从识别对象的语音、唇部动作、手势动作、面部表情动作等多个维度对语音进行识别,同时根据环境条件适应性调整不同维度对应的权重,进而避免环境对语音识别结果的影响,提高语音识别的准确性。
技术关键词
语音特征
对象
融合特征
面部表情特征
图像
手势特征
语音识别方法
动作特征
计算机程序产品
音频
麦克风阵列
语音识别设备
语音识别装置
意图
存储器
处理器
电子设备