语音识别训练数据选择方法、装置、终端设备和存储介质

正文

推荐专利

申请号：CN202510209807

申请日期：2025-02-25

公开号：CN120126456A

公开日期：2025-06-10

类型：发明专利

摘要

本发明公开了一种语音识别训练数据选择方法、装置、终端设备和存储介质，其中方法包括：对通用语料库和目标语料库进行离散化生成若干离散标签序列，通过n‑gram语言模型计算离散标签序列的概率分布；接着，根据n‑gram语言模型下的概率分布计算根据不同离散语料库之间的差异度。选择与目标语料库差异度最小的通用语料库子集作为训练数据。本发明筛选后的训练数据质量更适用于目标场景，质量更好，有助于提高语音识别的性能。

技术关键词

语音识别训练序列标签元素声学特征数据获取模块终端设备场景处理器聚类存储器数值计算机

系统为您推荐了相关专利信息

一种用于油气基因勘探检测的探针

轻量化卷积神经网络基因序列数据探针荧光定量PCR技术智能分析模块

一种基于机器学习的多信道频谱预测方法

频谱占用状态频谱预测方法皮尔逊相关系数卷积网络模型时域特征

一种基于快速傅里叶变换的藏语语音数据生成方法

语音数据生成方法信号梯度下降算法 MacOS系统傅里叶变换算法

一种基于松弛策略实现阵列波束主瓣宽度最大化的优化方法

矩阵波束阵列天线松弛电平功率

一种基于改进的回声状态网络实现的离子簇质心运动轨迹预测方法

回声状态网络运动轨迹预测方法矩阵动态双曲正切函数

语音识别训练数据选择方法、装置、终端设备和存储介质

站点导航

APP 下载