摘要
本发明公开一种语音识别方法、系统、设备及介质,涉及语言信号处理技术领域,该方法包括:采集待识别的语音信号数据,提取语音信号数据的梅尔频率倒谱系数特征;基于Transformer模型构建语音识别模型;将语音信号数据的梅尔频率倒谱系数特征输入语音识别模型中,生成语音信号数据的文本单词与目标端文本之间的对应关系;根据该对应关系生成待识别语音信号对应的文本内容;该方法有效克服了现有离线语音识别方法在多地域战场环境下存在的识别准确率不足的问题。
技术关键词
编码特征
生成语音信号
识别语音信号
注意力机制
多层感知机层
文本
NMF算法
语言信号处理技术
离线语音识别方法
频率
构建语音识别模型
人声
解码
滤波器
数据
矩阵