基于声学特征Logit分布动态边界与时序建模的语音识别方法

正文

推荐专利

申请号：CN202510888892

申请日期：2025-06-30

公开号：CN120472889A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法，包括：步骤1，构建语音识别训练所需的数据集，将数据集划分为训练集、验证集和测试集；步骤2，对音频文件和标注进行数据清洗；步骤3，统计数据集中的标注生成词表；步骤4，构建语音识别模型；步骤5，使用训练集对步骤4构建的语音识别模型进行训练，训练结束后使用验证集评估语音识别模型训练过程中的性能变化；步骤6，将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐，通过长短时记忆网络时序建模优势融合特征，减少空白语音、长停顿对语音识别的影响。

技术关键词

语音识别方法声学特征构建语音识别模型语音识别训练融合特征时序音频文件采样率编码器动态词典多头注意力机制数据优化器标记训练集频谱特征音频特征

基于声学特征Logit分布动态边界与时序建模的语音识别方法

站点导航

APP 下载