基于声学特征Logit分布动态边界与时序建模的语音识别方法

AITNT
正文
推荐专利
基于声学特征Logit分布动态边界与时序建模的语音识别方法
申请号:CN202510888892
申请日期:2025-06-30
公开号:CN120472889A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法,包括:步骤1,构建语音识别训练所需的数据集,将数据集划分为训练集、验证集和测试集;步骤2,对音频文件和标注进行数据清洗;步骤3,统计数据集中的标注生成词表;步骤4,构建语音识别模型;步骤5,使用训练集对步骤4构建的语音识别模型进行训练,训练结束后使用验证集评估语音识别模型训练过程中的性能变化;步骤6,将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐,通过长短时记忆网络时序建模优势融合特征,减少空白语音、长停顿对语音识别的影响。
技术关键词
语音识别方法 声学特征 构建语音识别模型 语音识别训练 融合特征 时序 音频文件采样率 编码器 动态 词典 多头注意力机制 数据 优化器 标记 训练集 频谱特征 音频特征
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号