摘要
本发明公开了一种细粒度多模态提示引导的视觉关系识别方法及装置,方法包括:对获取到的多组关系权重向量,使用多元高斯分布对其建模,并结合输出的复合图像特征,基于少量训练样本推导关系分类损失并计算语义多样性损失,最小化训练总损失来优化文本提示;取关系平均权重向量,与目标物体对的复合图像特征分别计算相似性、加权融合,经归一化操作得到关系预测概率分布;对最大预测概率的关系谓词进行验证,根据输出的关系类别智能监控系统实时检测大型公共场所异常行为。装置包括:处理器和存储器。本发明准确地调整视觉语言模型到视觉关系检测任务,实现视觉关系的准确检测,从而提高智能监控系统异常行为的检测能力,及时触发警报通知相关人员。
技术关键词
关系识别方法
智能监控系统
多模态
大型公共场所
视觉
物体
少量训练样本
文本编码器
语义
图像编码器
处理器
可读存储介质
大语言模型
存储器
坐标
指令
程序
系统为您推荐了相关专利信息
协同训练方法
负载均衡数据
分布式架构
构建知识图谱
节点
仿真测试系统
测试场景
仿真测试方法
测试用例文档
可视化模块
队列
数据特征提取
多模态
时间序列数据处理
文本