摘要
本发明提供一种基于whispertoken构建小语种的语音识别方法及系统,涉及自然语言处理和语音识别技术领域,所述方法包括:提取Whispertokenizer中与目标小语种相关的所有token,形成初始候选集合;将初始候选集合中的token与收集的目标小语种训练文本语料进行匹配和分析,统计token在语料中的出现频率;根据频率统计结果筛选高频token,补充低频token,以构建动态词汇表。本发明通过提升词汇表质量、优化模型训练效率、增强语音识别准确率、提升模型泛化能力以及简化模型构建流程,为小语种语音识别领域提供了一种高效、准确且易于实现的解决方案。
技术关键词
语音识别方法
构建语音识别模型
语义特征
解码器
文本识别
频率
语音识别准确率
语音识别系统
动态
深度学习框架
语音识别技术
编码器
可读存储介质
策略
频谱特征
处理器
语音特征
信号
系统为您推荐了相关专利信息
噪声预测模型
大语言模型
格式化
生成方法
自然语言
半导体芯片表面
缺陷检测方法
解码器
编码器
图像
预训练模型
模型训练方法
分辨率
视觉数据处理技术
投影特征
逻辑优化方法
节点特征
统计特征
机器可读存储介质
构建预测模型
预测分析方法
贝叶斯神经网络
城市路网结构
核密度估计方法
门控循环单元