摘要
本发明涉及基于多源数据融合学习的违规行为识别与检测方法及系统,属于异常检测技术领域。步骤包括:(1)针对输入的视频信息,使用视频内容描述生成模块,生成对视频内容的整体文本描述;(2)针对输入视频、视频关键图片和视频描述文本进行多源多模态信息融合;(3)计算不同梯度组合的帕累托最优,使用该组合梯度更新整个模型。本发明通过将输入视频的多模态信息进行提取与融合,提升了模型在视频中提取人物行为的语义信息的能力,从而大大增强了模型识别与检测违规行为的性能。
技术关键词
多模态特征融合
注意力
融合特征
损失计算方法
图片
异常检测技术
优化网络参数
变量
文本编码器
视频编码器
大语言模型
数据
双模态
模块
定义
系统为您推荐了相关专利信息
大数据平台
深度卷积神经网络模型
调控方法
风险
生成训练数据
明渠流量
无线超声波传感器
多层感知机
注意力机制
Softmax函数
图像增强模型
水下图像增强方法
特征提取模块
教师
联合损失函数