基于跨模态渐进式CLIP的压缩视频动作识别方法

正文

推荐专利

申请号：CN202510234814

申请日期：2025-02-28

公开号：CN120236325A

公开日期：2025-07-01

类型：发明专利

摘要

本发明公开了一种基于跨模态渐进式CLIP的压缩视频动作识别方法，解决了现有技术中I帧减少，背景信息的丢失使得模型难以准确捕捉和理解复杂的动作场景，从而影响了对动作及其上下文的理解能力的问题，实现了能够更好地利用多模态信息，提升行为识别的整体性能；该方法包括：获取待识别视频序列，并将待识别视频序列转换为重编码视频序列；获取与待识别视频序列对应的多个文本描述；将重编码视频序列输入至训练完成的跨模态渐进式CLIP特征提取网络中，得到压缩视频动作识别结果；跨模态渐进式CLIP特征提取网络，包括：数据处理模块、视觉编码器分支、运动编码器分支、细节编码器分支、文本处理分支、渐进式特征融合模块和对比模块。

技术关键词

视频动作识别方法识别视频序列编码视频序列跨模态运动向量文本特征向量特征提取网络运动编码器分支数据处理模块多模态信息处理单元图像

基于跨模态渐进式CLIP的压缩视频动作识别方法

站点导航

APP 下载