摘要
本公开涉及数据处理技术领域,提供了一种目标检测方法、模型训练方法、装置、电子设备及介质。目标检测方法包括:获取待识别图像和查询文本,其中,查询文本用于查询待识别图像中与查询文本对应的目标对象;对待识别图像进行图像识别,得到图像描述特征和区域检测视觉特征;对图像描述特征和区域检测视觉特征进行区域多模态融合处理,得到区域多模态融合特征;对基于查询文本得到的文本特征和区域多模态融合特征进行特征融合处理,得到查询文本对应的文本区域融合特征;基于文本特征和文本区域融合特征得到目标检测结果,以此提升了文本语义与图像区域特征的融合度,提升了复杂场景下目标检测的准确性和鲁棒性。
技术关键词
融合特征
文本
视觉特征
多模态
细粒度特征
图像
注意力
样本
序列化特征
模型训练方法
对象
强化特征
权重特征
标签
电子设备
可读存储介质
数据处理技术
处理器
模块
解码
系统为您推荐了相关专利信息
多智能体协作控制
多模态传感器
事件触发机制
策略
融合视觉
信息采集方法
文档对象模型
软件开发工具包
元素
接收前端
图像生成模型
融合特征
图像生成方法
样本
轮廓特征