摘要
本申请公开了一种跨模态视觉关系检测的场景交互感知方法及相关设备,涉及场景交互感知技术领域,通过视觉关系检测模型检测时空特征,建立场景内人、物、行为的三元组数据,即三维关系图谱,可精准识别客户与服务设施的交互状态。通过先验知识的得分修正矩阵与门控融合机制,将统计规律与实时检测结果深度融合,既继承了传统安全检测中数据驱动优势,又引入知识推理的可解释路径,使模型在降低误报率的同时,具备对新型异常模式的泛化能力,并且基于对比学习联合训练得到的预设编码器组以及门控融合机制,有效抑制冗余信息,使多模态特征在保留互补信息的同时消除语义冲突,提高在客户服务场景中的异常行为检测的准确性。
技术关键词
时空上下文信息
实体
跨模态
关系分类器
视频流
视觉特征
场景
图像
视觉关系检测模型
三元组
矩阵
文本
编码器
融合特征
序列
标签
机制
深度神经网络
系统为您推荐了相关专利信息
查询特征
图像语义检索方法
视觉特征
多模态特征融合
语义特征
知识抽取方法
BERT模型
雷达
序列标注方法
预训练语言模型
交互方法
关系
法律咨询服务技术
大语言模型
标签
医学影像分割方法
多模态特征
文本编码器
图像编码器
解码器