摘要
本发明公开了类分布与时序上下文协同提示的声音事件检测方法及系统,将原始音频信号转换为信号帧序列,预训练模型分支提取梅尔滤波器组特征,下游模型分支提取梅尔频谱特征;预训练模型的每一层均引入局部时序提示模块和全局分布提示模块的组合,预训练模型输出音频序列特征和全局分布提示模块;音频序列与下游模型的输出进行特征融合,计算下游模型的帧级别预测概率,实现音频定位任务;继而,将下游模型的帧级别预测概率生成句级别预测概率;对于预训练模型,对全局分布提示模块进行处理,获得预训练模型的句级别预测概率;最后,将两个句级别预测概率进行融合,获得声音事件的分类结果。本发明能显著提升声音事件检测的音频分类和定位性能。
技术关键词
声音事件检测方法
预训练模型
序列特征
音频
频谱特征
滤波器
分支
卷积循环神经网络
声学模型建模
卷积神经网络提取
信号预处理模块
深度学习模型
特征提取模块
编码器
时序特征
决策