多模态语音识别方法、装置、设备及计算机可读介质

正文

推荐专利

申请号：CN202410900743

申请日期：2024-07-05

公开号：CN118748008A

公开日期：2024-10-08

类型：发明专利

摘要

本申请涉及一种多模态语音识别方法、装置、设备及计算机可读介质。该方法包括：获取麦克风阵列对目标空间中的至少一个说话人采集的语音数据和视觉传感器阵列对所述目标空间采集的视觉数据；确定所述语音数据的声学特征，并基于所述视觉数据确定至少一个说话人的视觉位置特征和视觉唇形特征；基于对所述声学特征和所述视觉位置特征的融合确定所述说话人的目标位置；将所述语音数据、所述声学特征、所述目标位置以及所述视觉唇形特征输入目标语音识别模型，得到对所述目标空间中的至少一个说话人的语音识别结果。本申请基于视觉辅助进行声源定位，并进一步将定位结果以及视觉数据辅助语音识别，解决了复杂环境下语音识别准确率下降的技术问题。

技术关键词

声学特征唇形特征语音识别模型注意力编码器语音编码数据视觉传感器语音识别方法辅助语音识别语音识别准确率视觉辅助定位嵌入特征麦克风阵列采集多模态语音交叉注意力机制多头注意力机制

多模态语音识别方法、装置、设备及计算机可读介质

站点导航

APP 下载