摘要
本发明公开了一种基于动态位置嵌入的课堂完备元动作识别方法,包括:得到单个学生课堂元动作视频、对视频进行关键帧采样;构建由动态位置嵌入的位置编码模块、Video Swin Transformer基本模块、ViT3D基本模块组成的课堂完备元动作识别模型,依次获得动态位置特征表示、多个局部注意力向量、元动作类别概率向量、对课堂完备元动作识别模型进行迭代优化;将预处理后学生课堂元动作视频输入该模型获得课堂学生元动作类别。这种方法不仅使用动态位置嵌入方法进行条件位置编码结合深度卷积网络以提升对元动作空间结构的解析能力,并采用ViT3D的全注意力机制提取动作的潜在空间特征,捕捉元动作的全局时空信息,从而提升课堂视频的学生完备元动作识别准确率。
技术关键词
动作识别模型
动作识别方法
学生
编码模块
动态
视频帧
Softmax函数
深度卷积网络
嵌入方法
多层感知机
矩阵
注意力机制
空间结构
高清
关键帧
优化器
数据