摘要
本发明公开了一种基于时频特征融合的智能声音信号感知方法及系统,涉及智能声音信号处理技术领域,包括:获取原始音频信号;对所述原始音频信号进行短时傅里叶变换,获取复数频谱特征;将所述复数频谱特征输入至复数神经网络中进行处理,提取频域深度特征;采用一维卷积神经网络对所述原始音频信号进行处理,提取时域深度特征;将所述频域深度特征与所述时域深度特征在通道维度进行拼接融合,得到时频融合特征;将所述时频融合特征输入至全连接层分类器中,得到最终的音频场景识别结果。本发明通过设计时域与频域并行处理的双分支网络架构,有效融合了时域波形信息与频域的幅值及相位信息,在端到端的训练场景中,显著提升了音频识别的准确率。
技术关键词
信号感知方法
音频场景识别
残差模块
短时傅里叶变换
一维卷积神经网络
频谱特征
时域特征提取
频域特征提取
融合特征
复数特征
智能声音信号处理
分类器
信号获取模块
注意力
特征提取模块
训练场景
序列特征
通道