摘要
本发明属于声音识别领域,公开了一种基于声学模型的语音识别方法、计算机设备和存储介质。方法包括:获取待识别语音的语音特征;将语音特征输入声学模型,由模型输出识别结果;其中,时序处理网络层通过预训练的门控融合单元,先确定当前输入需预看未来帧占上下文信息的比值,再基于该比值计算预看未来帧数量并获取对应未来帧,结合未来帧计算长时上下文表示,处理后输出给下一层网络。本发明通过动态调整预看未来帧数量,解决了现有技术中延迟与准确率静态绑定的问题,对简单命令词实现低延迟响应,对易混淆指令通过多预看未来帧提升识别准确率,实现延迟与准确率的平衡,提升了语音识别系统性能与用户体验。
技术关键词
语音识别方法
辅助分类器
语音特征
时序
联合损失函数
计算机设备
语音识别系统
置信度阈值
网络
处理器
低延迟
可读存储介质
存储器
记忆
命令
序列
动态
系统为您推荐了相关专利信息
多任务学习模型
数据
时序
锂离子电池老化
健康状态预测
网络安全监测
网络监测数据
特征提取单元
动态密钥
日志
输液监测方法
场景
识别置信度
计算机可读指令
输液监测系统