摘要
本发明提供一种基于多摄像头的三维重建后的音视频的暴力事件检测方法,由于现有方法在处理遮挡、背对施暴等情况时存在错检误检的问题,在音频识别上没有声纹识别方法,容易声音混淆,所以采取三维重建与声纹识别的方法。在本方法中三维重建利用多摄像头获取人体关键点数据,结合处理后的图卷积网络(GCN)和二维卷积神经网络(2DCNN)分别处理视频和音频数据,来进行多维度的暴力检测,然后根据梅尔频谱特性去区别不同人的声纹特性,提高检测精度。然后在视频与音频的概率设置权重中我们需要自适应调整权重,并且通过算法优化阈值并判定暴力行为。这种创新方法对于以往的单摄像头检测或者无声纹检测方法具有优异的超越性。
技术关键词
暴力事件检测方法
二维卷积神经网络
音频
音视频
摄像头坐标系
人体关键点
卷积网络模型
数据
关键点检测算法
节点特征
手部关键点
矩阵
误差校正
纹检测方法
速度计算方法
人体骨骼
频谱特征
系统为您推荐了相关专利信息
注意力机制算法
数据
语音识别分析
查询方法
特征提取方法
深度学习模型
过滤系统
个性化特征
声纹特征
高斯滤波器
钻孔攻牙机
故障识别方法
识别神经网络
振动传感器
二维卷积神经网络
人脸图像序列
对话方法
人脸检测算法
WebRTC技术
视频同步
高层视觉特征
显著性预测方法
融合特征
协同注意力
视听