摘要
本发明公开了一种适应PSTN通话的增量式ASR算法,包括S1):数据预处理;S2):特征提取与归一化,得到当前帧的输入;S3):将当前帧的输入与缓存中的历史帧拼接,并输入LSTM模型;S4):更新所有LSTM层的隐藏状态和细胞状态,更新解码器的候选路径集合;S5):部分结果输出判断,若当前识别路径中某单词的概率超过设定阈值且后续帧未发生改变,则输出至输出缓冲区;否则,跳转执行S7;S6):输出缓冲区整理输出内容,并输出最终文本,步骤结束;S7):判断是否存在新帧,若存在新帧则跳至S1,否则步骤结束。本申请适应PSTN通话的增量式ASR算法,采用增量式处理方式,在用户讲话的同时实时进行语音识别,显著减少延迟并提升了响应速度。
技术关键词
更新解码器
LSTM模型
滤波器
置信度阈值
算法
梅尔频率倒谱系数
音频特征
短时傅里叶变换
离散余弦变换
文本
信号
数据
通道
冗余
索引
语音
标记
系统为您推荐了相关专利信息
多址接入方法
导频污染消除
多用户检测算法
索引
广义正交匹配追踪算法
径向基函数代理模型
隔板
拉丁超立方采样
决策
变量
智能控制方法
烟气氧浓度
多模态
液压推杆系统
炉膛
插值模型
地面监测站
数据同步
监测方法
启用无人机