一种基于声学聚类的语音识别二阶段解码加速方法

正文

推荐专利

申请号：CN202510375802

申请日期：2025-03-27

公开号：CN120220679A

公开日期：2025-06-27

类型：发明专利

摘要

本发明公开一种基于声学聚类的语音识别二阶段解码加速方法，步骤为：根据预训练的声音单元提取模型获得音频对应的声学信息序列，并构建<文本，声学信息序列>的二元数据，训练文本至声音单元映射模型；将文本转变为对应的声学信息序列并使用KMeans方法进行聚类，获得子词表集合；构建自动语音识别模型，筛选音频至文本的语音识别训练数据，并将音频文件提取成fbank特征序列；进行第一阶段解码，获得对应的目标子词表；根据目标子词表，在第二阶段解码中计算该子词表下的概率分布，并选取概率最高的词作为识别结果。本发明能够在快速推理的最新实现基础上，继续获得1.08倍的加速比，同时模型性能几乎没有下降。

技术关键词

自动语音识别解码加速方法语音识别训练文本音频语音识别模型序列数据阶段平滑度聚类鲁棒性噪声参数代表框架基础

系统为您推荐了相关专利信息

模型问答方法、装置、电子设备及非易失性存储介质

问答方法文本非易失性存储介质问答模型参数

图节点分类模型的训练方法、图节点分类方法及相关设备

拓扑特征标签节点分类方法文本分类模型训练样本集

热处理工艺知识图谱构建方法及装置

知识图谱构建方法三元组实体有向图结构数据

一种航天器发令方法、系统、电子设备和存储介质

指令发令系统语音识别模块航天器控制技术地面

文本生成模型评估方法和装置

文本生成模型实体层级记忆非暂态计算机可读存储介质

一种基于声学聚类的语音识别二阶段解码加速方法

站点导航

APP 下载