基于多模态信息的复杂场景下唤醒词识别方法及装置

AITNT
正文
推荐专利
基于多模态信息的复杂场景下唤醒词识别方法及装置
申请号:CN202410802638
申请日期:2024-06-20
公开号:CN118658470A
公开日期:2024-09-17
类型:发明专利
摘要
本公开提供了一种基于多模态信息的复杂场景下唤醒词识别方法及装置,其中,方法包括三个步骤:步骤一:语音信号中潜在唤醒词语音片段的检测;步骤二:基于潜在唤醒词语音与对应场景视频信息的目标说话人识别;步骤三:结合潜在唤醒词语音与目标说话人唇动视频的唤醒词语音识别。利用本公开的方法,可以提高多人、嘈杂等复杂场景下识别唤醒词的能力。
技术关键词
唤醒词识别方法 多模态信息 说话人识别模型 语音 场景 词模型 音频特征提取 跨模态 识别唤醒词 注意力 编码器 音视频 人脸检测模型 模块 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号