摘要
本发明涉及计算机视觉技术等领域,公开了一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统,所述方法通过整合时空交互Transformer和物体交互性预测(STIP)构建视频动作识别系统,能够有效地识别和分析视频中的动作,特别在多人交互场景也有较好效果,包括下述具体步骤:对原始视频进行预处理,获取必要的包括视频帧序列和多模态特征的视频数据;将预处理后的视频数据编码为离散的令牌序列;将该令牌序列输入Transformer,进行M层自注意力计算,提取时空特征;使用物体交互性预测模块,对视频数据中物体之间的交互关系进行判断和建模;利用融合后的多模态特征进行分类,输出视频中的动作类别。
技术关键词
视频动作识别方法
交互性
物体
动作识别系统
令牌
序列
动态门控
卷积神经网络提取
音频特征
多模态特征融合
注意力机制
视频帧
数据编码
高维特征向量
计算机视觉技术
更新模型参数
系统为您推荐了相关专利信息
身份验证信息
多模式
身份验证方法
套件
动态口令验证
三维光学测量方法
单镜头
光学系统参数
光强
相机
数据权限控制方法
数据访问策略
数据访问请求
人工智能系统
企业内部数据