一种细粒度多模态提示引导的视觉关系识别方法及装置

正文

推荐专利

申请号：CN202411380443

申请日期：2024-09-30

公开号：CN119229204A

公开日期：2024-12-31

类型：发明专利

摘要

本发明公开了一种细粒度多模态提示引导的视觉关系识别方法及装置，方法包括：对获取到的多组关系权重向量，使用多元高斯分布对其建模，并结合输出的复合图像特征，基于少量训练样本推导关系分类损失并计算语义多样性损失，最小化训练总损失来优化文本提示；取关系平均权重向量，与目标物体对的复合图像特征分别计算相似性、加权融合，经归一化操作得到关系预测概率分布；对最大预测概率的关系谓词进行验证，根据输出的关系类别智能监控系统实时检测大型公共场所异常行为。装置包括：处理器和存储器。本发明准确地调整视觉语言模型到视觉关系检测任务，实现视觉关系的准确检测，从而提高智能监控系统异常行为的检测能力，及时触发警报通知相关人员。

技术关键词

关系识别方法智能监控系统多模态大型公共场所视觉物体少量训练样本文本编码器语义图像编码器处理器可读存储介质大语言模型存储器坐标指令程序

系统为您推荐了相关专利信息

一种多模态智能体RAG-ReAct双引擎协同训练方法

协同训练方法负载均衡数据分布式架构构建知识图谱节点

一种车载T-Box模拟仿真测试系统及方法

仿真测试系统测试场景仿真测试方法测试用例文档可视化模块

一种基于AI多模态诊断模型的构建方法

队列数据特征提取多模态时间序列数据处理文本

一种机器人箱包自动装配生产线

箱包壳体装配生产线转台夹具机器人上料托盘

基于人工智能的端侧大模型评测方法、装置、设备及介质

云端评分系统评测平台模型评测方法框架

一种细粒度多模态提示引导的视觉关系识别方法及装置

站点导航

APP 下载