摘要
本发明公开一种基于CLIP的时序解耦的动作识别方法。该方法包括:采集目标区域的视频图像;将视频图像输入到经训练的动作识别模型,获得动作识别结果。其中动作识别模型包含文本解码分支和图像解码分支,图像解码分支设有用于将帧级特征分解为内容基特征与风格残差特征的实例感知时序解耦模块,该实例感知时序解耦模块包含实例归一化模块和双时序全局‑局部注意力模块,实例归一化模块实现输入视频帧的风格归一化操作,双时序全局‑局部注意力模块对风格残差特征进行特征解耦,通过全局时序注意力建模跨帧的长程依赖,并通过局部时序注意力捕捉相邻帧的细粒度关联。本发明实现了监督性和泛化性的有效平衡,提高了视频动作识别的准确性和鲁棒性。
技术关键词
动作识别模型
注意力
归一化模块
时序
动作识别方法
动作特征
风格
视频帧
视频动作识别
解码
分支
图像
全局平均池化
处理器
计算机设备
代表
可读存储介质
文本