一种基于图像文本对的图像目标计数方法及装置

AITNT
正文
推荐专利
一种基于图像文本对的图像目标计数方法及装置
申请号:CN202411643366
申请日期:2024-11-18
公开号:CN119763128A
公开日期:2025-04-04
类型:发明专利
摘要
本发明涉及图像处理技术领域,尤其是指一种基于图像文本对的图像目标计数方法及装置,包括:构建目标计数模型,包括文本编码器、图像编码器、文本图像增强模块和解耦头;将原始图像和目标类别的文本输入至目标计数模型,输出原始图像中属于目标类别的若干个体的预测点的坐标,进而得到属于目标类别的个体的总数。本发明保留了图像的局部细节信息,增强了模型对局部信息的感知能力,进一步结合多头自注意力机制提取的全局信息,有效提高了模型对目标的识别能力,提高了对目标计数的准确性。
技术关键词
图像增强模块 计数方法 融合特征 交叉注意力机制 文本编码器 图像编码器 多层感知机 分支 编码模块 输出特征 通道 BERT模型
系统为您推荐了相关专利信息
1
一种基于AI分析的肠道超声图像分割方法、系统、设备和介质
超声图像分割方法 图像特征区域 超声图像数据 交叉注意力机制 掩膜
2
对象的识别方法和装置、存储介质及电子设备
控制权 文本特征向量 图像特征向量 样本 语义
3
一种自动驾驶场景的挖掘方法、装置、设备、介质及产品
图像匹配 挖掘方法 生成场景 指令 文本编码器
4
基于多模态的反射率遥感时序重建方法、装置、介质及设备
多光谱遥感影像 多模态 时序特征 掩膜 反射率
5
虚拟试穿视频生成方法、模型训练方法及电子设备
服饰特征 图像生成模型 融合特征 人体特征 视频生成方法
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号