摘要
本申请涉及动物物种识别技术领域,实施例具体公开了一种视觉与声纹双模态的物种识别方法、装置及存储介质,其中方法包括:基于yolov5网络构建视觉识别模型,将图像数据输入所述视觉识别模型获取第一识别结果;设置第二阈值,当所述第一识别结果置信度低于所述第二阈值时,通过基于ERes2NetV2网络构建的声纹识别模型获取第二识别结果,当所述第二识别结果和第一识别结果一致时,继续采用一致的识别结果作为最终识别的物种类别,当两个模型输出的识别结果不一致时,采用第二识别结果作为最终的物种类别。以解决现有技术中的视觉识别技术受到环境因素的限制,这些因素可能导致视觉模型出现误告,影响识别的准确性和可靠性的问题。
技术关键词
去噪自动编码器
双模态
声纹识别模型
识别方法
MFCC特征
动物物种
音频
图像数据预处理
网络
数据获取模块
声纹特征
频率转换
多尺度特征提取
视觉识别技术
数据特征提取
离散余弦变换