摘要
本发明公开了一种基于跨模态渐进式CLIP的压缩视频动作识别方法,解决了现有技术中I帧减少,背景信息的丢失使得模型难以准确捕捉和理解复杂的动作场景,从而影响了对动作及其上下文的理解能力的问题,实现了能够更好地利用多模态信息,提升行为识别的整体性能;该方法包括:获取待识别视频序列,并将待识别视频序列转换为重编码视频序列;获取与待识别视频序列对应的多个文本描述;将重编码视频序列输入至训练完成的跨模态渐进式CLIP特征提取网络中,得到压缩视频动作识别结果;跨模态渐进式CLIP特征提取网络,包括:数据处理模块、视觉编码器分支、运动编码器分支、细节编码器分支、文本处理分支、渐进式特征融合模块和对比模块。
技术关键词
视频动作识别方法
识别视频序列
编码视频序列
跨模态
运动向量
文本特征向量
特征提取网络
运动编码器
分支
数据处理模块
多模态信息
处理单元
图像