摘要
本发明提供一种协同文本身份和视觉线索的人物交互检测的方法,设计了一个视觉模态分支和文本模态分支组成的双分支多模态人物交互检测网络;使用文本特征编码人物对中的物体身份,并且充分发掘人物交互检测数据集中的标签分布知识,显式地构建起物体身份和交互动作类别之间的约束关系,明确发挥出物体身份在交互推理中的作用;对于视觉模态和文本模态之间的特征差异,通过迁移视觉语言模型中的特征知识解决任务交互检测任务中的多模态特征融合问题,在此基础上,设计多模态特征融合模块,以物体身份的两种模态表征作为引导,对齐并融合同一人物对的视觉和文本模态表征进行人与物体之间交互行为的推理。
技术关键词
文本
视觉
分类网络
线索
特征提取网络
身份
语义特征
注意力
网络特征
多模态特征融合
空间关系特征
三元组
物体
图像
分支
交互动作
编码特征
检测器
系统为您推荐了相关专利信息
画像
网格
可执行程序代码
执行主体
知识图谱优化
动态障碍物
无人飞行平台
识别方法
彩色图像
点云