一种基于声学聚类的语音识别二阶段解码加速方法

AITNT
正文
推荐专利
一种基于声学聚类的语音识别二阶段解码加速方法
申请号:CN202510375802
申请日期:2025-03-27
公开号:CN120220679A
公开日期:2025-06-27
类型:发明专利
摘要
本发明公开一种基于声学聚类的语音识别二阶段解码加速方法,步骤为:根据预训练的声音单元提取模型获得音频对应的声学信息序列,并构建<文本,声学信息序列>的二元数据,训练文本至声音单元映射模型;将文本转变为对应的声学信息序列并使用KMeans方法进行聚类,获得子词表集合;构建自动语音识别模型,筛选音频至文本的语音识别训练数据,并将音频文件提取成fbank特征序列;进行第一阶段解码,获得对应的目标子词表;根据目标子词表,在第二阶段解码中计算该子词表下的概率分布,并选取概率最高的词作为识别结果。本发明能够在快速推理的最新实现基础上,继续获得1.08倍的加速比,同时模型性能几乎没有下降。
技术关键词
自动语音识别 解码加速方法 语音识别训练 文本 音频 语音识别模型 序列 数据 阶段 平滑度 聚类 鲁棒性 噪声 参数 代表 框架 基础
系统为您推荐了相关专利信息
1
模型问答方法、装置、电子设备及非易失性存储介质
问答方法 文本 非易失性存储介质 问答模型 参数
2
图节点分类模型的训练方法、图节点分类方法及相关设备
拓扑特征 标签 节点分类方法 文本分类模型 训练样本集
3
热处理工艺知识图谱构建方法及装置
知识图谱构建方法 三元组 实体 有向图结构 数据
4
一种航天器发令方法、系统、电子设备和存储介质
指令 发令系统 语音识别模块 航天器控制技术 地面
5
文本生成模型评估方法和装置
文本生成模型 实体 层级 记忆 非暂态计算机可读存储介质
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号