摘要
本发明属于计算机视觉技术领域,主要围绕人物交互检测(HOI)展开。针对现有HOI检测方法在复杂场景下语义理解能力薄弱、分类器语义线索利用不充分以及长尾分布问题突出等缺陷,例如受遮挡、光照影响难以准确捕捉交互语义本质,随机初始化权重无法挖掘标签语义关联,稀有交互类别检测效果差等,提出一种基于多模态信息融合的人物交互检测方法。该方法引入文本标签语义增强分类器,将多模态特征融入人物交互检测分类头,基于CLIP实现多模态实例分类器,最后融合两种分类器结果。具体通过主干网络提取图像特征,经Transf ormer编码器‑解码器集合预测,多模态标签语义嵌入模块提取文本嵌入特征,用文本嵌入向量初始化线性分类层权重进行交互预测,利用多模态实例语义分类器预测,以及多源融合模块融合预测结果,最终获得更高精度的检测结果。
技术关键词
交互检测方法
多模态信息融合
语义分类器
Sigmoid函数
文本特征向量
图像特征向量
文本编码器
三元组
多源融合
嵌入特征
自然语言文本
计算机视觉技术
标签
线性分类器