摘要
本发明涉及基于重构双流标记匹配的弱监督时空动作检测方法和装置。首先生成视频片段集合,通过动作前景语义增强模块融合背景,获得动作前景语义增强的视频片段集合;再利用二维卷积与三维卷积神经网络获取目标边界框序列集合,并提取目标级时空特征集合;之后,通过掩码遮挡特征重构模块,对目标级时空特征集合进行掩码重构,输出目标级重构特征集合;最后,通过双流标记匹配模块,对预测结果进行动作类别标记分配,输出预测的动作类别概率集合。本发明不仅在目标遮挡场景下对视频动作检测具有鲁棒性,还可在仅依赖粗粒度视频级标记的情况下完成模型训练,降低了数据标注的时间开销,提升了时空动作检测的精度。
技术关键词
动作检测方法
三维卷积神经网络
动作特征
重构模块
子模块
多层感知机
动作检测模型
匹配模块
标记
交叉注意力机制
二维卷积神经网络
分支
序列
生成视频片段
分类器
动作检测装置
动作识别模型