一种基于多模态提示的物体无监督计数方法

正文

推荐专利

一种基于多模态提示的物体无监督计数方法

申请号：CN202510843819

申请日期：2025-06-23

公开号：CN120763840A

公开日期：2025-10-10

类型：发明专利

摘要

本发明公开了一种基于多模态提示的物体无监督计数方法，涉及计算机视觉和自然语言处理的技术领域，包括：获取包括图像数据和对应文本数据的输入数据集；利用卷积神经网络对图像数据进行特征提取，获得图像特征表示，并利用预训练语言模型对文本数据进行特征提取，获得文本特征表示；利用多模态提示学习模型对图像特征表示和文本特征表示进行联合表示学习，生成图像和文本的共享特征表示；对图像和文本进行特征匹配，识别出图像中目标物体与文本描述中对应的目标物体信息之间的相关性；选择与图像中目标物体匹配程度最高的文本描述，进行目标物体计数。本发明解决了现有方法依赖于大量的标注数据，且缺乏对计数任务的针对性解决方案的问题。

技术关键词

文本多模态计数方法无监督物体神经网络对图像预训练语言模型深度神经网络卷积神经网络提取图像块数据计算机视觉时序特征注意力机制自然语言编码数值

一种基于多模态提示的物体无监督计数方法

站点导航

APP 下载