摘要
本发明公开了一种基于多尺度图卷积网络的时序动作检测方法,属于计算机视觉领域,包括:使用I3D网络对视频进行特征提取;使用CNN网络对提取到的视频特征进行进一步细化;将细化后的视频特征送入到图金字塔模块中进行下采样获取不同尺度的视频特征,分别对各个尺度的视频特征进行时间边、相似边以及空间边的建模,建模后对视频特征进行图卷积来聚合当前尺度视频特征的上下文信息;将进行图卷积之后的视频特征送入到分类头和回归头进行预测;综合不同尺度的动作预测结果得到最终的时序动作检测结果。本发明能够实现对视频中动作单元进行更加充分地建模,有效利用了动作单元的时间空间关系,进而大幅提升了时序动作检测的准确度。
技术关键词
时序动作检测方法
金字塔
多尺度
视频网络
正则化参数
掩码矩阵
模块
动作特征
计算机视觉
关系
节点
语义
采样率
连续性
度量
偏差
样本
系统为您推荐了相关专利信息
测试优化方法
应力场
测试点
集成专家
集成传感器技术
分类筛选方法
电感磁芯
拓扑结构数据
模式识别
轮廓信息
大语言模型
层级
计算机程序指令
代码优化方法
多尺度