摘要
本发明公开一种基于声学聚类的语音识别二阶段解码加速方法,步骤为:根据预训练的声音单元提取模型获得音频对应的声学信息序列,并构建<文本,声学信息序列>的二元数据,训练文本至声音单元映射模型;将文本转变为对应的声学信息序列并使用KMeans方法进行聚类,获得子词表集合;构建自动语音识别模型,筛选音频至文本的语音识别训练数据,并将音频文件提取成fbank特征序列;进行第一阶段解码,获得对应的目标子词表;根据目标子词表,在第二阶段解码中计算该子词表下的概率分布,并选取概率最高的词作为识别结果。本发明能够在快速推理的最新实现基础上,继续获得1.08倍的加速比,同时模型性能几乎没有下降。
技术关键词
自动语音识别
解码加速方法
语音识别训练
文本
音频
语音识别模型
序列
数据
阶段
平滑度
聚类
鲁棒性
噪声
参数
代表
框架
基础
系统为您推荐了相关专利信息
拓扑特征
标签
节点分类方法
文本分类模型
训练样本集
指令
发令系统
语音识别模块
航天器控制技术
地面
文本生成模型
实体
层级
记忆
非暂态计算机可读存储介质