摘要
本发明公开了一种面向鸟群监测的视觉文本弱监督集群计数方法及装置,包括:步骤1,设计有序数字序列嵌入文本提示模板,利用冻结文本编码器生成文本特征及分类器权重;输入鸟群图像至原始图像编码器获取多尺度视觉特征;步骤2,通过可学习特征适配器将视觉特征与分类器权重融合,生成增强视觉特征;步骤3,利用多尺度信息交互模块的交叉注意力机制融合增强视觉特征与文本特征,传递文本语义信息,生成多模态融合特征;步骤4,基于多模态排序损失训练模型,计算融合特征与文本特征的相似度矩阵,通过损失优化图像块与序列匹配并微调图像编码器,得到优化编码器;步骤5,推理阶段采用多阶段筛选策略:先用原始编码器去除背景图像块,再用优化编码器预测筛选后图像块的鸟群数量并累加。本发明有效提升了鸟群计数的准确性。
技术关键词
文本特征向量
图像编码器
前馈神经网络
视觉
文本编码器
计数方法
图像块
多尺度信息
融合特征
排序损失
多模态
交叉注意力机制
分类器
学习特征
适配器
双线性插值
集群
计数装置
系统为您推荐了相关专利信息
终端交互方法
多模态注意力
交互内容
多通道
负荷
缺陷自动识别
电池片固定装置
图像拍摄单元
三维卷积神经网络模型
机械传动模块