摘要
本发明涉及语音识别技术领域,具体涉及一种用于卡片学习机的语音识别方法及系统,方法包括:采集儿童在多种语速、语调和口音下的读演讲和自发言语的语音数据,对语音数据进行预处理,并进行分帧处理,采用Hamming窗函数进行加窗,通过语速扰动进行数据增强,生成不同语速的音频版本,对增强后的语音数据提取梅尔频率倒谱系数特征,并结合一阶和二阶差分特征,生成特征向量,并执行倒谱均值方差归一化处理,构建基于深度学习的语音识别模型,对语音识别模型进行判别式训练进行优化,使用优化后的模型进行语音识别解码,并输出文本识别结果和发音纠正建议。通过本发明,可以提升智能卡片学习机在多语言环境下的实用性与用户体验。
技术关键词
语音识别模型
卡片学习机
语音识别方法
梅尔频率倒谱系数
语音识别解码
数据
MFCC特征
发音
儿童
文本识别
速度因子
采样率
模拟真实环境
背景噪声
生成特征向量
语音识别系统
梯度下降算法
语音识别技术
语音识别模块
系统为您推荐了相关专利信息
梅尔频率倒谱系数
生成特征向量
文本数据生成方法
语音
动态解码
文本分类模型
监测方法
数据
多模态
文本识别模型
语音交互控制方法
雷达
自然语言
高光谱图像数据
混合网络模型
数据执行风险评估
视频流
构建语音识别模型
实时交易系统
指纹验证
语法结构
语音识别功能
置信度阈值
音频数据处理方法
指令