基于多模态信息的复杂场景下唤醒词识别方法及装置

正文

推荐专利

申请号：CN202410802638

申请日期：2024-06-20

公开号：CN118658470A

公开日期：2024-09-17

类型：发明专利

摘要

本公开提供了一种基于多模态信息的复杂场景下唤醒词识别方法及装置，其中，方法包括三个步骤：步骤一：语音信号中潜在唤醒词语音片段的检测；步骤二：基于潜在唤醒词语音与对应场景视频信息的目标说话人识别；步骤三：结合潜在唤醒词语音与目标说话人唇动视频的唤醒词语音识别。利用本公开的方法，可以提高多人、嘈杂等复杂场景下识别唤醒词的能力。

技术关键词

唤醒词识别方法多模态信息说话人识别模型语音场景词模型音频特征提取跨模态识别唤醒词注意力编码器音视频人脸检测模型模块序列

基于多模态信息的复杂场景下唤醒词识别方法及装置

站点导航

APP 下载