摘要
本发明公开了一种基于多模态融合的鸟类识别系统,包括:音频信号处理模块:接收并处理鸟类鸣叫的音频信号,提取音频特征;视频信号处理模块:接收并处理鸟类的视频信号,提取视频特征;特征提取模块:分别从音频信号和视频信号中提取空间和时间特征,生成音频模态特征和视频模态特征;对比学习模块:基于正负样本对的构造,学习音频模态特征和视频模态特征之间的关联关系;跨模态注意力融合模块:根据音频和视频特征之间的关联关系,通过跨模态注意力机制将音频和视频模态特征进行融合;识别决策模块:根据融合后的音频和视频特征输出鸟类识别结果。本发明。
技术关键词
模态特征
视频信号处理模块
音频信号处理模块
识别系统
多模态
跨模态
特征提取模块
多头注意力机制
二维卷积神经网络
音频特征
短时傅里叶变换
时间序列特征
样本
编码器
通讯