摘要
本发明涉及目标检测技术领域,公开了基于属性对比的密集场景多模态目标检测方法,包括:将图像和自然语言描述分别输入至预设的特征提取模型提取初始视觉特征和初始语言特征;根据预设的多个属性类型,将初始视觉特征和初始语言特征解耦为多个视觉属性级特征和对应的多个语言属性级特征;将多个视觉属性级特征和对应的多个语言属性级特征输入至细粒度属性对比模型,增大不同属性值对应的属性级特征间的区分度,得到增强的多模态属性特征;融合增强的多模态属性特征以生成最终特征谱,并输出自然语言描述所指定的目标对象在图像中的位置信息。本发明旨在解决现有技术在密集场景下因无法分辨相似目标而导致的检测性能不佳的问题。
技术关键词
视觉特征
多模态
自然语言
特征提取模型
双向长短期记忆网络
场景
特征金字塔网络
联合损失函数
图像
分支
检测器
对象
级联
坐标
编码
系统为您推荐了相关专利信息
轨迹优化方法
数据融合算法
误差补偿模型
权重分配策略
深度强化学习