摘要
本发明涉及图像处理技术领域,尤其是指一种基于图像文本对的图像目标计数方法及装置,包括:构建目标计数模型,包括文本编码器、图像编码器、文本图像增强模块和解耦头;将原始图像和目标类别的文本输入至目标计数模型,输出原始图像中属于目标类别的若干个体的预测点的坐标,进而得到属于目标类别的个体的总数。本发明保留了图像的局部细节信息,增强了模型对局部信息的感知能力,进一步结合多头自注意力机制提取的全局信息,有效提高了模型对目标的识别能力,提高了对目标计数的准确性。
技术关键词
图像增强模块
计数方法
融合特征
交叉注意力机制
文本编码器
图像编码器
多层感知机
分支
编码模块
输出特征
通道
BERT模型
系统为您推荐了相关专利信息
超声图像分割方法
图像特征区域
超声图像数据
交叉注意力机制
掩膜
服饰特征
图像生成模型
融合特征
人体特征
视频生成方法