摘要
本发明公开了一种基于多尺度图卷积网络的时序动作检测方法,属于计算机视觉领域,包括:使用I3D网络对视频进行特征提取;使用CNN网络对提取到的视频特征进行进一步细化;将细化后的视频特征送入到图金字塔模块中进行下采样获取不同尺度的视频特征,分别对各个尺度的视频特征进行时间边、相似边以及空间边的建模,建模后对视频特征进行图卷积来聚合当前尺度视频特征的上下文信息;将进行图卷积之后的视频特征送入到分类头和回归头进行预测;综合不同尺度的动作预测结果得到最终的时序动作检测结果。本发明能够实现对视频中动作单元进行更加充分地建模,有效利用了动作单元的时间空间关系,进而大幅提升了时序动作检测的准确度。
技术关键词
时序动作检测方法
金字塔
多尺度
视频网络
正则化参数
掩码矩阵
模块
动作特征
计算机视觉
关系
节点
语义
采样率
连续性
度量
偏差
样本
系统为您推荐了相关专利信息
分辨率遥感影像
遥感影像识别
像素
对象
区域识别方法
人脸图像修复方法
图像修复模型
个性化特征
噪声图像
样本
规律分析方法
因子
样本
多元统计分析
模糊综合评价方法
加权特征
身份证表面
深度图像数据
注意力
局部细节特征
上下文特征
频域特征
场景特征
语义分割模型
像素点