视觉与声纹双模态的物种识别方法、装置及存储介质

正文

推荐专利

申请号：CN202510926977

申请日期：2025-07-07

公开号：CN120429834A

公开日期：2025-08-05

类型：发明专利

摘要

本申请涉及动物物种识别技术领域，实施例具体公开了一种视觉与声纹双模态的物种识别方法、装置及存储介质，其中方法包括：基于yolov5网络构建视觉识别模型，将图像数据输入所述视觉识别模型获取第一识别结果；设置第二阈值，当所述第一识别结果置信度低于所述第二阈值时，通过基于ERes2NetV2网络构建的声纹识别模型获取第二识别结果，当所述第二识别结果和第一识别结果一致时，继续采用一致的识别结果作为最终识别的物种类别，当两个模型输出的识别结果不一致时，采用第二识别结果作为最终的物种类别。以解决现有技术中的视觉识别技术受到环境因素的限制，这些因素可能导致视觉模型出现误告，影响识别的准确性和可靠性的问题。

技术关键词

去噪自动编码器双模态声纹识别模型识别方法 MFCC特征动物物种音频图像数据预处理网络数据获取模块声纹特征频率转换多尺度特征提取视觉识别技术数据特征提取离散余弦变换

视觉与声纹双模态的物种识别方法、装置及存储介质

站点导航

APP 下载