摘要
本发明提供了一种跨场景的动作识别方法,属于计算机视觉视频理解任务技术领域。本发明的跨场景的动作识别方法本发明首先训练一个暗转亮的扩散模型,结合基于正常光照数据预训练的大规模扩散模型中获得的先验知识,将输入的黑暗视频帧转换成光亮视频帧。在恢复采样过程中,将一种特定的时空注意力机制集成到训练好的条件扩散模型中,从而缓解基于图像训练的低光照增强方法引起的视频帧间的不连续性。随后设计特定自蒸馏分支并配置到动作识别骨干网络中,提取骨干网络各层之间的加权时空特征,以提高动作识别网络的泛化能力。相比于业内主流方法,本发明在现有的黑暗视频识别数据集上都取得了最先进的结果,同时比基线结果有大幅度的效果提升。
技术关键词
动作识别方法
时空注意力机制
多头注意力机制
视频帧
光照
神经网络模型
对齐模块
矩阵
原始图像数据
残差模块
场景
视频识别数据
网络结构
预测特征
蒸馏
输出特征
分支