摘要
本申请适用于人物交互检测技术领域,提供了一种基于内容查询和位置查询的人物交互检测方法,包括:首先通过主干网络提取图像特征,并用目标检测器DETR检测人和物体实例,然后配对人物与物体实例,提取外观、空间和物体类别语义特征并计算交互性分数,选出交互提议,接着将多模态特征深度融合,生成内容和位置嵌入,传入Transformer解码器进行交叉注意力计算,得到交互特征,最后将交互特征输入分类器,结合置信度分数,输出人物交互三元组的分数。该方法通过深度融合多模态特征和交叉注意力机制,有效提高人物与物体交互的检测精度,能够准确识别复杂场景中的人物交互关系。
技术关键词
交互检测方法
交互特征
语义特征
物体
解码器
多层感知机
交互检测技术
序列
融合多模态特征
分类器
代表
交互性
图像视觉特征
三元组
交叉注意力机制
特征点
编码
坐标