一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统

AITNT
正文
推荐专利
一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统
申请号:CN202411839370
申请日期:2024-12-13
公开号:CN119785426B
公开日期:2025-12-16
类型:发明专利
摘要
本发明涉及计算机视觉技术等领域,公开了一种基于时空交互Transformer和物体交互性预测的视频动作识别方法及系统,所述方法通过整合时空交互Transformer和物体交互性预测(STIP)构建视频动作识别系统,能够有效地识别和分析视频中的动作,特别在多人交互场景也有较好效果,包括下述具体步骤:对原始视频进行预处理,获取必要的包括视频帧序列和多模态特征的视频数据;将预处理后的视频数据编码为离散的令牌序列;将该令牌序列输入Transformer,进行M层自注意力计算,提取时空特征;使用物体交互性预测模块,对视频数据中物体之间的交互关系进行判断和建模;利用融合后的多模态特征进行分类,输出视频中的动作类别。
技术关键词
视频动作识别方法 交互性 物体 动作识别系统 令牌 序列 动态门控 卷积神经网络提取 音频特征 多模态特征融合 注意力机制 视频帧 数据编码 高维特征向量 计算机视觉技术 更新模型参数
系统为您推荐了相关专利信息
1
一种多模式身份验证方法、电子设备及存储介质
身份验证信息 多模式 身份验证方法 套件 动态口令验证
2
一种单镜头三维光学测量方法、装置、计算机设备及介质
三维光学测量方法 单镜头 光学系统参数 光强 相机
3
大型视觉语言模型幻觉减轻方法及装置
令牌 视觉 文本 大语言模型 解码器
4
一种基于数据统计特性的多视角结构光三维重建方法及系统
包裹相位 数据 条纹 视角 结构光投影仪
5
基于大模型的数据权限控制方法、装置、设备及存储介质
数据权限控制方法 数据访问策略 数据访问请求 人工智能系统 企业内部数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号