语音识别训练数据选择方法、装置、终端设备和存储介质

AITNT
正文
推荐专利
语音识别训练数据选择方法、装置、终端设备和存储介质
申请号:CN202510209807
申请日期:2025-02-25
公开号:CN120126456A
公开日期:2025-06-10
类型:发明专利
摘要
本发明公开了一种语音识别训练数据选择方法、装置、终端设备和存储介质,其中方法包括:对通用语料库和目标语料库进行离散化生成若干离散标签序列,通过n‑gram语言模型计算离散标签序列的概率分布;接着,根据n‑gram语言模型下的概率分布计算根据不同离散语料库之间的差异度。选择与目标语料库差异度最小的通用语料库子集作为训练数据。本发明筛选后的训练数据质量更适用于目标场景,质量更好,有助于提高语音识别的性能。
技术关键词
语音识别训练 序列 标签 元素 声学特征 数据获取模块 终端设备 场景 处理器 聚类 存储器 数值 计算机
系统为您推荐了相关专利信息
1
一种用于油气基因勘探检测的探针
轻量化卷积神经网络 基因序列数据 探针 荧光定量PCR技术 智能分析模块
2
一种基于机器学习的多信道频谱预测方法
频谱占用状态 频谱预测方法 皮尔逊相关系数 卷积网络模型 时域特征
3
一种基于快速傅里叶变换的藏语语音数据生成方法
语音数据生成方法 信号 梯度下降算法 MacOS系统 傅里叶变换算法
4
一种基于松弛策略实现阵列波束主瓣宽度最大化的优化方法
矩阵 波束阵列天线 松弛 电平 功率
5
一种基于改进的回声状态网络实现的离子簇质心运动轨迹预测方法
回声状态网络 运动轨迹预测方法 矩阵 动态 双曲正切函数
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号