摘要
本发明公开了一种语音识别训练数据选择方法、装置、终端设备和存储介质,其中方法包括:对通用语料库和目标语料库进行离散化生成若干离散标签序列,通过n‑gram语言模型计算离散标签序列的概率分布;接着,根据n‑gram语言模型下的概率分布计算根据不同离散语料库之间的差异度。选择与目标语料库差异度最小的通用语料库子集作为训练数据。本发明筛选后的训练数据质量更适用于目标场景,质量更好,有助于提高语音识别的性能。
技术关键词
语音识别训练
序列
标签
元素
声学特征
数据获取模块
终端设备
场景
处理器
聚类
存储器
数值
计算机
系统为您推荐了相关专利信息
轻量化卷积神经网络
基因序列数据
探针
荧光定量PCR技术
智能分析模块
频谱占用状态
频谱预测方法
皮尔逊相关系数
卷积网络模型
时域特征
语音数据生成方法
信号
梯度下降算法
MacOS系统
傅里叶变换算法
回声状态网络
运动轨迹预测方法
矩阵
动态
双曲正切函数