摘要
本发明提供一种联合RGB外观、骨骼姿态与音频信息的多模态视频异常检测方法及相关设备。该方法包括:将目标视频分割为若干个视频片段;对每个视频片段进行预处理以获取每个视频片段的多模态数据,所述多模态数据包括人体骨骼轨迹、外观关键区域和声音频谱图;利用骨骼姿态子网络、RGB外观子网络和音频信息子网络分别对每个视频片段的多模态数据进行特征提取,得到每个视频片段的骨骼姿态特征、外观特征和音频特征;采用自适应多流融合策略对每个视频片段的骨骼姿态特征、外观特征和音频特征进行融合并预测每个视频片段的异常分数;若视频片段的异常分数超过设定阈值,则认为所述视频片段包含异常行为。
技术关键词
视频异常检测方法
姿态特征
音频特征
人体骨骼
融合策略
人体骨架
关键点
人体姿态估计算法
非暂态计算机可读存储介质
多模态
短时傅里叶变换
异常检测装置
生成对抗网络
轨迹
视频帧
样本
系统为您推荐了相关专利信息
动作生成方法
音频特征
头部模型
节奏特征
人体模型
烧结矿
分析方法
多模态特征融合
数据
深度学习框架
智能识别模块
多模型融合策略
特征提取模块
数据采集模块
卷积神经网络模型
体育项目测试
动作评估方法
成绩
平板设备
人体骨骼关键点