摘要
本申请涉及智能语音交互技术领域,公开了一种用于麦克风阵列会议设备的语音识别方法及装置,其方法包括获取任一单通道的输入音频;采用预设的3A模型对输入音频进行频带建模,融合提取的特征,经过复数网络计算,得到一个掩码作用于输入音频以得到目标音频;将目标音频输入预设的语音唤醒模型,确定唤醒词的音频段;判断是否存在人声;若存在人声,则利用预设的提取模型提取唤醒人声纹特征,确定唤醒人的音频段;将当前帧的唤醒人的音频段输入预设的人声识别模型进行人声指令识别,得到唤醒人的人声指令,通过语言模型识别人声指令对应的意图,并响应唤醒人的人声指令。本申请具有在会议室多人讲话的场景下,改善人声指令和唤醒词识别精度的效果。
技术关键词
语音识别方法
麦克风阵列
会议设备
音频
语音唤醒模型
人声识别
声纹特征
识别语音数据
智能语音交互技术
文本
指令
输入端
意图
实体
唤醒词检测
方位角
模块
语音识别装置
系统为您推荐了相关专利信息
多功能服务机器人
伺服电机
移动底盘
传感机构
轮式
噪声数据
音频
编码器模块
采样率
计算机可执行指令
关键词
热点
图像特征向量
文本分析模型
计算机程序产品