一种基于图像文本对的图像目标计数方法及装置

正文

推荐专利

申请号：CN202411643366

申请日期：2024-11-18

公开号：CN119763128A

公开日期：2025-04-04

类型：发明专利

摘要

本发明涉及图像处理技术领域，尤其是指一种基于图像文本对的图像目标计数方法及装置，包括：构建目标计数模型，包括文本编码器、图像编码器、文本图像增强模块和解耦头；将原始图像和目标类别的文本输入至目标计数模型，输出原始图像中属于目标类别的若干个体的预测点的坐标，进而得到属于目标类别的个体的总数。本发明保留了图像的局部细节信息，增强了模型对局部信息的感知能力，进一步结合多头自注意力机制提取的全局信息，有效提高了模型对目标的识别能力，提高了对目标计数的准确性。

技术关键词

图像增强模块计数方法融合特征交叉注意力机制文本编码器图像编码器多层感知机分支编码模块输出特征通道 BERT模型

系统为您推荐了相关专利信息

一种基于AI分析的肠道超声图像分割方法、系统、设备和介质

超声图像分割方法图像特征区域超声图像数据交叉注意力机制掩膜

对象的识别方法和装置、存储介质及电子设备

控制权文本特征向量图像特征向量样本语义

一种自动驾驶场景的挖掘方法、装置、设备、介质及产品

图像匹配挖掘方法生成场景指令文本编码器

基于多模态的反射率遥感时序重建方法、装置、介质及设备

多光谱遥感影像多模态时序特征掩膜反射率

虚拟试穿视频生成方法、模型训练方法及电子设备

服饰特征图像生成模型融合特征人体特征视频生成方法

一种基于图像文本对的图像目标计数方法及装置

站点导航

APP 下载