摘要
本发明提供一种基于视觉语言预训练的开放词汇时空动作检测方法及装置,涉及时空动作检测技术领域。该方法包括:获取待检测的视频数据输入到局部分支得到与人相关的区域特征;局部分支包括以人为中心的与类别无关管检测器和位置感知的区域解析器;将视频数据输入到全局分支得到全局视频特征;全局分支包括视频层面的视觉语言预训练模型;将与人相关的区域特征以及全局视频特征融合,计算融合的视频区域特征与文本特征的相似度得到行为类别的分类结果。在UCF‑JHMDB数据集上进行广泛实验表明,本发明优于现有方法的性能。为解决开放识别能力不足的问题提供了一种可行的解决方案,为进一步研究时空动作检测提供了新的方向和思路。
技术关键词
动作检测方法
计算机可读取存储介质
解析器
视觉
动作检测装置
图像编码器
分支
预训练模型
计算机可读指令
检测器
关键帧
动作检测技术
注意力
视频特征提取
全局特征提取
局部特征提取
数据
检测设备
适配器
系统为您推荐了相关专利信息
软件自动测试方法
生成测试数据
软件测试技术
抽象语法树
语义
异常识别方法
视觉成像装置
动态时间规整算法
多视角图像采集
特征提取网络