摘要
本发明提供了一种基于原型匹配的文本信息引导的自进化目标检测方法,提取图像与文本中的局部、目标信息,分别得到输入图像中的各类候选目标与输入文本中的目标、属性指代词信息,采用多模态大模型和跨模态引导注意力机制,分别进行视觉与文本特征向量的提取与跨模态信息关系交互计算,将两种模态的特征向量原型进行动态匹配,根据匹配结果综合选择最终的目标。本发明将原本预训练模型中知识作用于文本引导的目标检测任务当中,使模型在面对没有数据集中没有见过的目标时具有了自进化的能力,也解决了输入文本与图像中存在大量冗余信息,不利于目标检测的问题,使得关键的目标图像信息与目标相关的文本信息能够充分对齐匹配,实现高性能的目标检测。
技术关键词
原型
文本编码器
注意力机制
跨模态
图像编码器
预训练模型
文本特征向量
可读存储介质
多模态
图片
视觉
自然语言
处理器
工具包
对象
阶段
语义
系统为您推荐了相关专利信息
识别定位方法
识别定位设备
形态学特征
图像
肿瘤轮廓
对象检测
图像语义理解
事件预警方法
异常事件
文本编码器
店铺
生成方法
PageRank算法
自然语言
空间布局信息
风格
前馈神经网络
识别模型构建方法
笔迹特征
深度学习算法