摘要
本发明涉及基于多源数据融合学习的违规行为识别与检测方法及系统,属于异常检测技术领域。步骤包括:(1)针对输入的视频信息,使用视频内容描述生成模块,生成对视频内容的整体文本描述;(2)针对输入视频、视频关键图片和视频描述文本进行多源多模态信息融合;(3)计算不同梯度组合的帕累托最优,使用该组合梯度更新整个模型。本发明通过将输入视频的多模态信息进行提取与融合,提升了模型在视频中提取人物行为的语义信息的能力,从而大大增强了模型识别与检测违规行为的性能。
技术关键词
多模态特征融合
注意力
融合特征
损失计算方法
图片
异常检测技术
优化网络参数
变量
文本编码器
视频编码器
大语言模型
数据
双模态
模块
定义
系统为您推荐了相关专利信息
遥感图像识别方法
图像块
注意力机制
遥感图像识别技术
非暂态计算机可读存储介质
轨迹规划方法
空间特征提取
动作预测模型
三维卷积神经网络
时空注意力机制