一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统

正文

推荐专利

申请号：CN202411839370

申请日期：2024-12-13

公开号：CN119785426B

公开日期：2025-12-16

类型：发明专利

摘要

本发明涉及计算机视觉技术等领域，公开了一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统，所述方法通过整合时空交互Transformer和物体交互性预测（STIP）构建视频动作识别系统，能够有效地识别和分析视频中的动作，特别在多人交互场景也有较好效果，包括下述具体步骤：对原始视频进行预处理，获取必要的包括视频帧序列和多模态特征的视频数据；将预处理后的视频数据编码为离散的令牌序列；将该令牌序列输入Transformer，进行M层自注意力计算，提取时空特征；使用物体交互性预测模块，对视频数据中物体之间的交互关系进行判断和建模；利用融合后的多模态特征进行分类，输出视频中的动作类别。

技术关键词

视频动作识别方法交互性物体动作识别系统令牌序列动态门控卷积神经网络提取音频特征多模态特征融合注意力机制视频帧数据编码高维特征向量计算机视觉技术更新模型参数

系统为您推荐了相关专利信息

一种多模式身份验证方法、电子设备及存储介质

身份验证信息多模式身份验证方法套件动态口令验证

一种单镜头三维光学测量方法、装置、计算机设备及介质

三维光学测量方法单镜头光学系统参数光强相机

大型视觉语言模型幻觉减轻方法及装置

令牌视觉文本大语言模型解码器

一种基于数据统计特性的多视角结构光三维重建方法及系统

包裹相位数据条纹视角结构光投影仪

基于大模型的数据权限控制方法、装置、设备及存储介质

数据权限控制方法数据访问策略数据访问请求人工智能系统企业内部数据

一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统

站点导航

APP 下载