类分布与时序上下文协同提示的声音事件检测方法及系统

正文

推荐专利

申请号：CN202510211179

申请日期：2025-02-25

公开号：CN120048284A

公开日期：2025-05-27

类型：发明专利

摘要

本发明公开了类分布与时序上下文协同提示的声音事件检测方法及系统，将原始音频信号转换为信号帧序列，预训练模型分支提取梅尔滤波器组特征，下游模型分支提取梅尔频谱特征；预训练模型的每一层均引入局部时序提示模块和全局分布提示模块的组合，预训练模型输出音频序列特征和全局分布提示模块；音频序列与下游模型的输出进行特征融合，计算下游模型的帧级别预测概率，实现音频定位任务；继而，将下游模型的帧级别预测概率生成句级别预测概率；对于预训练模型，对全局分布提示模块进行处理，获得预训练模型的句级别预测概率；最后，将两个句级别预测概率进行融合，获得声音事件的分类结果。本发明能显著提升声音事件检测的音频分类和定位性能。

技术关键词

声音事件检测方法预训练模型序列特征音频频谱特征滤波器分支卷积循环神经网络声学模型建模卷积神经网络提取信号预处理模块深度学习模型特征提取模块编码器时序特征决策

类分布与时序上下文协同提示的声音事件检测方法及系统

站点导航

APP 下载