一种基于深度学习的VAD方法在语音识别系统中的应用

正文

推荐专利

申请号：CN202411122608

申请日期：2024-08-15

公开号：CN119091932A

公开日期：2024-12-06

类型：发明专利

摘要

本申请涉及语音识别技术领域，公开了一种应用于VAD模块的语音识别方法，包括以帧为单位获取音频流数据，并将音频流数据升采样或者降采样成需要的格式；通过多头注意力模型对每帧音频流数据进行特征提取，得到每帧音频流数据的特征数据；设置滑动窗口记录多帧音频流数据的特征数据；对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断，并剔除被判断为其他状态的音频流数据；本申请有效提升语音转文字的准确率，减少计算资源消耗，提高语音转文字的转换效率。

技术关键词

滑动窗口语音识别方法音频数据注意力模型人声短时傅里叶变换语音识别系统语音识别技术模块格式信号

系统为您推荐了相关专利信息

一种基于克里金代理模型辅助遗传算法的降压式变换器智能控制方法

克里金代理模型遗传算法降压式变换器电网历史数据智能控制方法

基于大语言模型的机械智能制造钢铁CPS传送与监测系统

大语言模型智能控制系统实时数据时间序列分析技术监测系统

一种基于环境监管的尾矿库分类分级方法

尾矿库分类分级方法特征污染物环境风险评价空间分析方法

数据资产智能检索与可视化展示平台

可视化展示平台中央处理器数据资产管理隐私保护模块可视化系统

一种结合知识图谱处理问答任务的方法和装置

实体三元组编码向量大语言模型标签

一种基于深度学习的VAD方法在语音识别系统中的应用

站点导航

APP 下载