摘要
本发明涉及一种基于开放词汇检测昆虫害虫的视觉语言检测方法,包括:将待检测图像与待检测图像的文本描述作为输入,提取出视觉特征和文本特征;构建多模态特征融合模块,将视觉特征与文本特征映射到统一的语义空间,生成语言感知的视觉特征与图像感知的文本特征,使用对比学习机制将语言感知的视觉特征与图像感知的文本特征在统一的语义空间中对齐。本发明为有效的现实世界害虫检测而设计,解决了适应性害虫识别系统的关键需求;多模态特征融合模块有效地集成了视觉语言模态,通过增强特征表示显著提高了开放词汇昆虫害虫检测的性能;区域提示在开放词汇场景中展示了卓越的泛化能力,从而能够在不同的环境中更加健壮和灵活的害虫检测。
技术关键词
视觉特征
多模态特征融合
计算机程序指令
文本特征向量
图像块
高维特征向量
多头注意力机制
sigmoid函数
元素
矩阵
对象
语义
文本编码器
特征金字塔
处理器
系统为您推荐了相关专利信息
细粒度分类
拓扑特征
区域特征分析
多模态
压缩特征向量
变电站设备
注意力机制
时间段
GRU模型
处理单元
随机噪声
位置编码信息
序列
生成对抗网络训练
数据生成方法
高速铁路桥梁
能力评估方法
桥梁系统
计算机程序指令
高速铁路路基
多模态数据融合
动态权重分配
骨骼关键点
教师
视觉传感器