一种跨模态视觉关系检测的场景交互感知方法及相关设备

正文

推荐专利

申请号：CN202511070698

申请日期：2025-07-31

公开号：CN120894730A

公开日期：2025-11-04

类型：发明专利

摘要

本申请公开了一种跨模态视觉关系检测的场景交互感知方法及相关设备，涉及场景交互感知技术领域，通过视觉关系检测模型检测时空特征，建立场景内人、物、行为的三元组数据，即三维关系图谱，可精准识别客户与服务设施的交互状态。通过先验知识的得分修正矩阵与门控融合机制，将统计规律与实时检测结果深度融合，既继承了传统安全检测中数据驱动优势，又引入知识推理的可解释路径，使模型在降低误报率的同时，具备对新型异常模式的泛化能力，并且基于对比学习联合训练得到的预设编码器组以及门控融合机制，有效抑制冗余信息，使多模态特征在保留互补信息的同时消除语义冲突，提高在客户服务场景中的异常行为检测的准确性。

技术关键词

时空上下文信息实体跨模态关系分类器视频流视觉特征场景图像视觉关系检测模型三元组矩阵文本编码器融合特征序列标签机制深度神经网络

系统为您推荐了相关专利信息

基于多模态特征融合的跨域图像语义检索方法及系统

查询特征图像语义检索方法视觉特征多模态特征融合语义特征

一种基于大模型的公路工程勘察设计资料快速知识化方法

结点结构化数据模型列表文件夹对象

基于BERT模型的雷达对抗领域知识抽取方法及系统

知识抽取方法 BERT模型雷达序列标注方法预训练语言模型

一种基于法律咨询的智慧交互方法及系统

交互方法关系法律咨询服务技术大语言模型标签

一种通用的视觉语言模型医学影像分割方法

医学影像分割方法多模态特征文本编码器图像编码器解码器

一种跨模态视觉关系检测的场景交互感知方法及相关设备

站点导航

APP 下载