一种协同文本身份和视觉线索的人物交互检测的方法

AITNT
正文
推荐专利
一种协同文本身份和视觉线索的人物交互检测的方法
申请号:CN202410990081
申请日期:2024-07-23
公开号:CN119131882B
公开日期:2025-04-15
类型:发明专利
摘要
本发明提供一种协同文本身份和视觉线索的人物交互检测的方法,设计了一个视觉模态分支和文本模态分支组成的双分支多模态人物交互检测网络;使用文本特征编码人物对中的物体身份,并且充分发掘人物交互检测数据集中的标签分布知识,显式地构建起物体身份和交互动作类别之间的约束关系,明确发挥出物体身份在交互推理中的作用;对于视觉模态和文本模态之间的特征差异,通过迁移视觉语言模型中的特征知识解决任务交互检测任务中的多模态特征融合问题,在此基础上,设计多模态特征融合模块,以物体身份的两种模态表征作为引导,对齐并融合同一人物对的视觉和文本模态表征进行人与物体之间交互行为的推理。
技术关键词
文本 视觉 分类网络 线索 特征提取网络 身份 语义特征 注意力 网络特征 多模态特征融合 空间关系特征 三元组 物体 图像 分支 交互动作 编码特征 检测器
系统为您推荐了相关专利信息
1
基于业务画像的基层事件智能分派方法及系统
画像 网格 可执行程序代码 执行主体 知识图谱优化
2
一种基于人工智能的短信审核拦截系统
拦截系统 节点 注意力机制 矩阵 语义特征
3
一种反季节着装识别方法、装置、电子设备和存储介质
识别方法 文本 视觉 跨模态 分辨率
4
无人飞行平台半动态障碍识别方法及装置
动态障碍物 无人飞行平台 识别方法 彩色图像 点云
5
基于综合空间定向模型的低重力运动感知预测方法及系统
运动感知模型 半规管模型 人体 数据 视觉
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号