一种基于深度学习的VAD方法在语音识别系统中的应用

AITNT
正文
推荐专利
一种基于深度学习的VAD方法在语音识别系统中的应用
申请号:CN202411122608
申请日期:2024-08-15
公开号:CN119091932A
公开日期:2024-12-06
类型:发明专利
摘要
本申请涉及语音识别技术领域,公开了一种应用于VAD模块的语音识别方法,包括以帧为单位获取音频流数据,并将音频流数据升采样或者降采样成需要的格式;通过多头注意力模型对每帧音频流数据进行特征提取,得到每帧音频流数据的特征数据;设置滑动窗口记录多帧音频流数据的特征数据;对单个滑动窗口内的特征数据进行说话状态或其他状态的整体判断,并剔除被判断为其他状态的音频流数据;本申请有效提升语音转文字的准确率,减少计算资源消耗,提高语音转文字的转换效率。
技术关键词
滑动窗口 语音识别方法 音频 数据 注意力模型 人声 短时傅里叶变换 语音识别系统 语音识别技术 模块 格式 信号
系统为您推荐了相关专利信息
1
一种基于克里金代理模型辅助遗传算法的降压式变换器智能控制方法
克里金代理模型 遗传算法 降压式变换器 电网历史数据 智能控制方法
2
基于大语言模型的机械智能制造钢铁CPS传送与监测系统
大语言模型 智能控制系统 实时数据 时间序列分析技术 监测系统
3
一种基于环境监管的尾矿库分类分级方法
尾矿库 分类分级方法 特征污染物 环境风险评价 空间分析方法
4
数据资产智能检索与可视化展示平台
可视化展示平台 中央处理器 数据资产管理 隐私保护模块 可视化系统
5
一种结合知识图谱处理问答任务的方法和装置
实体 三元组 编码向量 大语言模型 标签
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号