一种基于whispertoken构建小语种的语音识别方法及系统

正文

推荐专利

申请号：CN202510470690

申请日期：2025-04-15

公开号：CN120340494B

公开日期：2025-11-18

类型：发明专利

摘要

本发明提供一种基于whispertoken构建小语种的语音识别方法及系统，涉及自然语言处理和语音识别技术领域，所述方法包括：提取Whispertokenizer中与目标小语种相关的所有token，形成初始候选集合；将初始候选集合中的token与收集的目标小语种训练文本语料进行匹配和分析，统计token在语料中的出现频率；根据频率统计结果筛选高频token，补充低频token，以构建动态词汇表。本发明通过提升词汇表质量、优化模型训练效率、增强语音识别准确率、提升模型泛化能力以及简化模型构建流程，为小语种语音识别领域提供了一种高效、准确且易于实现的解决方案。

技术关键词

语音识别方法构建语音识别模型语义特征解码器文本识别频率语音识别准确率语音识别系统动态深度学习框架语音识别技术编码器可读存储介质策略频谱特征处理器语音特征信号

系统为您推荐了相关专利信息

一种大语言模型驱动的智能超表面单元生成方法及系统

噪声预测模型大语言模型格式化生成方法自然语言

基于深度对抗监督的半导体芯片表面缺陷检测方法

半导体芯片表面缺陷检测方法解码器编码器图像

模型训练方法、质量评估方法、装置、设备与产品

预训练模型模型训练方法分辨率视觉数据处理技术投影特征

一种基于预测反馈的电路逻辑优化方法

逻辑优化方法节点特征统计特征机器可读存储介质构建预测模型

基于深度学习显著性检验的城市传染病预测分析方法

预测分析方法贝叶斯神经网络城市路网结构核密度估计方法门控循环单元

一种基于whispertoken构建小语种的语音识别方法及系统

站点导航

APP 下载