摘要
本申请公开了一种基于时序对应的自监督视频表征学习方法,方法包括:基于给定视频数据训练集,针对每个视频,随机采样一帧作为当前帧,并对当前帧的图像块进行随机掩盖后,从当前帧的过去时刻和将来时刻分别采样一帧作为辅助帧;将辅助帧输入辅助分支,将掩码的当前帧输入学生分支,从辅助帧中检索与当前帧中掩码图像块最相似的图像块,进行表征重建,建立帧间的时序对应关系;将无掩码的当前帧输入教师分支中,通过自蒸馏机制生成监督信号,指导大模型对掩码的当前帧在隐空间进行表征重建,生成具有时间感知的高级语义表征。本发明方法降低表征重建的不确定性,且可以生成具有时间感知的高级语义表征。
技术关键词
表征学习方法
时序
图像块
分支
视频
教师
学生
前馈神经网络
语义
重建误差
学习系统
交叉注意力机制
注意力方法
训练集
关系
梯度下降法
处理器
蒸馏