摘要
本申请涉及一种多模态语音识别方法、装置、设备及计算机可读介质。该方法包括:获取麦克风阵列对目标空间中的至少一个说话人采集的语音数据和视觉传感器阵列对所述目标空间采集的视觉数据;确定所述语音数据的声学特征,并基于所述视觉数据确定至少一个说话人的视觉位置特征和视觉唇形特征;基于对所述声学特征和所述视觉位置特征的融合确定所述说话人的目标位置;将所述语音数据、所述声学特征、所述目标位置以及所述视觉唇形特征输入目标语音识别模型,得到对所述目标空间中的至少一个说话人的语音识别结果。本申请基于视觉辅助进行声源定位,并进一步将定位结果以及视觉数据辅助语音识别,解决了复杂环境下语音识别准确率下降的技术问题。
技术关键词
声学特征
唇形特征
语音识别模型
注意力编码器
语音编码
数据
视觉传感器
语音识别方法
辅助语音识别
语音识别准确率
视觉辅助定位
嵌入特征
麦克风阵列采集
多模态语音
交叉注意力机制
多头注意力机制