摘要
一种基于语义感知的人物交互检测方法和装置,该方法提出一种聚焦‑扩散特征增强网络,该网络对提取到的浅、中、深层特征进行尺寸统一,再将每个层次的特征在通道维度上均分,利用激活函数作用于中层特征的值自适应的增强图像的上下文特征或细粒度特征,以改善由复杂的目标种类和背景带来的细粒度目标检测精度低的问题。对于人与物的交互类别多样的问题,提出一种语义感知上下文网络,该网络利用检测出来的类别信息构建语义上下文的文本描述,再通过文本编码器生成词向量,用于表示实例所在区域的上下文特征。再将提取到的图像上下文特征与语义上下文特征执行注意力操作,得到语义感知的上下文特征,从而达到改善多样的交互类别检测不准确的问题。
技术关键词
交互检测方法
上下文特征
语义
YOLO算法
特征提取网络
图像
文本编码器
输出特征
双线性插值
子模块
交互检测装置
特征提取模块
交叉注意力机制
卷积模块
细粒度特征
识别模块
尺寸
系统为您推荐了相关专利信息
数据集构建方法
服装
多模态特征
视觉表现形式
挖掘方法
原型
实例分割模型
三维点云数据
特征提取器
多层感知机
数据处理方法
实体
数据完整性校验
电子数据采集系统
标识符