摘要
本发明公开了一种基于多模态信息融合的暴力突发事件识别和分类方法、系统及装置。该方法包括:首先,获取并预处理来自多种监控源的音视频数据,数据来源包括视频监控设备和音频采集设备。然后,利用I3D和VGGish模型分别提取视频数据和音频数据的时空特征和声学特征。接着,通过自注意力机制的多模态特征融合模块对视频特征和音频特征进行跨模态融合,捕获多模态信息之间的深层关联。再通过时序卷积网络模型对融合后的特征进行学习与加权融合,进一步提高特征的表示能力。最终,采用基于图神经网络的分类模型(GAT‑C)对融合后的特征向量进行分类,准确识别暴力突发事件类型。本发明的多模态融合技术大大提高了暴力事件的识别精度,尤其在复杂多样的暴力场景下,展现出了良好的鲁棒性和分类能力。该方法不仅能有效提升事件响应效率,保障公共安全,还具有较强的适应性和推广价值。
技术关键词
多模态信息融合
分类方法
音频特征
卷积网络模型
多模态特征融合
公共安全视频监控
注意力机制
数据
声学特征
视频特征向量
音频采集设备
视频监控设备
音视频
时序
计算机存储介质
突发事件识别
特征提取模块
时空关联关系