一种基于多模态信息融合人物交互检测方法

正文

推荐专利

一种基于多模态信息融合人物交互检测方法

申请号：CN202510392332

申请日期：2025-03-31

公开号：CN120259953A

公开日期：2025-07-04

类型：发明专利

摘要

本发明属于计算机视觉技术领域，主要围绕人物交互检测(HOI)展开。针对现有HOI检测方法在复杂场景下语义理解能力薄弱、分类器语义线索利用不充分以及长尾分布问题突出等缺陷，例如受遮挡、光照影响难以准确捕捉交互语义本质，随机初始化权重无法挖掘标签语义关联，稀有交互类别检测效果差等，提出一种基于多模态信息融合的人物交互检测方法。该方法引入文本标签语义增强分类器，将多模态特征融入人物交互检测分类头，基于CLIP实现多模态实例分类器，最后融合两种分类器结果。具体通过主干网络提取图像特征，经Transf ormer编码器‑解码器集合预测，多模态标签语义嵌入模块提取文本嵌入特征，用文本嵌入向量初始化线性分类层权重进行交互预测，利用多模态实例语义分类器预测，以及多源融合模块融合预测结果，最终获得更高精度的检测结果。

技术关键词

交互检测方法多模态信息融合语义分类器 Sigmoid函数文本特征向量图像特征向量文本编码器三元组多源融合嵌入特征自然语言文本计算机视觉技术标签线性分类器

一种基于多模态信息融合人物交互检测方法

站点导航

APP 下载