一种协同文本身份和视觉线索的人物交互检测的方法

正文

推荐专利

申请号：CN202410990081

申请日期：2024-07-23

公开号：CN119131882B

公开日期：2025-04-15

类型：发明专利

摘要

本发明提供一种协同文本身份和视觉线索的人物交互检测的方法，设计了一个视觉模态分支和文本模态分支组成的双分支多模态人物交互检测网络；使用文本特征编码人物对中的物体身份，并且充分发掘人物交互检测数据集中的标签分布知识，显式地构建起物体身份和交互动作类别之间的约束关系，明确发挥出物体身份在交互推理中的作用；对于视觉模态和文本模态之间的特征差异，通过迁移视觉语言模型中的特征知识解决任务交互检测任务中的多模态特征融合问题，在此基础上，设计多模态特征融合模块，以物体身份的两种模态表征作为引导，对齐并融合同一人物对的视觉和文本模态表征进行人与物体之间交互行为的推理。

技术关键词

文本视觉分类网络线索特征提取网络身份语义特征注意力网络特征多模态特征融合空间关系特征三元组物体图像分支交互动作编码特征检测器

系统为您推荐了相关专利信息

基于业务画像的基层事件智能分派方法及系统

画像网格可执行程序代码执行主体知识图谱优化

一种基于人工智能的短信审核拦截系统

拦截系统节点注意力机制矩阵语义特征

一种反季节着装识别方法、装置、电子设备和存储介质

识别方法文本视觉跨模态分辨率

无人飞行平台半动态障碍识别方法及装置

动态障碍物无人飞行平台识别方法彩色图像点云

基于综合空间定向模型的低重力运动感知预测方法及系统

运动感知模型半规管模型人体数据视觉

一种协同文本身份和视觉线索的人物交互检测的方法

站点导航

APP 下载