摘要
本申请涉及语音识别技术领域,公开了一种应用于VAD模块的语音识别方法,包括以帧为单位获取音频流数据,并将音频流数据升采样或者降采样成需要的格式;通过多头注意力模型对每帧音频流数据进行特征提取,得到每帧音频流数据的特征数据;设置滑动窗口记录多帧音频流数据的特征数据;对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断,并剔除被判断为其他状态的音频流数据;本申请有效提升语音转文字的准确率,减少计算资源消耗,提高语音转文字的转换效率。
技术关键词
滑动窗口
语音识别方法
音频
数据
注意力模型
人声
短时傅里叶变换
语音识别系统
语音识别技术
模块
格式
信号
系统为您推荐了相关专利信息
克里金代理模型
遗传算法
降压式变换器
电网历史数据
智能控制方法
大语言模型
智能控制系统
实时数据
时间序列分析技术
监测系统
尾矿库
分类分级方法
特征污染物
环境风险评价
空间分析方法
可视化展示平台
中央处理器
数据资产管理
隐私保护模块
可视化系统