摘要
本发明公开了一种基于多模态提示的物体无监督计数方法,涉及计算机视觉和自然语言处理的技术领域,包括:获取包括图像数据和对应文本数据的输入数据集;利用卷积神经网络对图像数据进行特征提取,获得图像特征表示,并利用预训练语言模型对文本数据进行特征提取,获得文本特征表示;利用多模态提示学习模型对图像特征表示和文本特征表示进行联合表示学习,生成图像和文本的共享特征表示;对图像和文本进行特征匹配,识别出图像中目标物体与文本描述中对应的目标物体信息之间的相关性;选择与图像中目标物体匹配程度最高的文本描述,进行目标物体计数。本发明解决了现有方法依赖于大量的标注数据,且缺乏对计数任务的针对性解决方案的问题。
技术关键词
文本
多模态
计数方法
无监督
物体
神经网络对图像
预训练语言模型
深度神经网络
卷积神经网络提取
图像块
数据
计算机视觉
时序特征
注意力机制
自然语言
编码
数值