视觉与声纹双模态的物种识别方法、装置及存储介质

AITNT
正文
推荐专利
视觉与声纹双模态的物种识别方法、装置及存储介质
申请号:CN202510926977
申请日期:2025-07-07
公开号:CN120429834A
公开日期:2025-08-05
类型:发明专利
摘要
本申请涉及动物物种识别技术领域,实施例具体公开了一种视觉与声纹双模态的物种识别方法、装置及存储介质,其中方法包括:基于yolov5网络构建视觉识别模型,将图像数据输入所述视觉识别模型获取第一识别结果;设置第二阈值,当所述第一识别结果置信度低于所述第二阈值时,通过基于ERes2NetV2网络构建的声纹识别模型获取第二识别结果,当所述第二识别结果和第一识别结果一致时,继续采用一致的识别结果作为最终识别的物种类别,当两个模型输出的识别结果不一致时,采用第二识别结果作为最终的物种类别。以解决现有技术中的视觉识别技术受到环境因素的限制,这些因素可能导致视觉模型出现误告,影响识别的准确性和可靠性的问题。
技术关键词
去噪自动编码器 双模态 声纹识别模型 识别方法 MFCC特征 动物物种 音频 图像数据预处理 网络 数据获取模块 声纹特征 频率转换 多尺度特征提取 视觉识别技术 数据特征提取 离散余弦变换
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号