摘要
本发明公开了一种基于端到端转换器模型的视频时空动作定位方法及系统,涉及计算机视觉领域,方法包括:建立视频时空动作定位模型,获取用于训练视频时空动作定位模型的视频数据集,并定义算法目标;提取所述视频数据集中的时空特征;基于时空特征在解码器网络上反馈查询生成动作检测框;基于生成的动作检测框定义损失函数,基于损失函数训练视频时空动作定位模型,并使用所述模型对输入视频进行时空动作定位;本发明提出了端到端的处理方法,引入了编码器解码器结构充分挖掘视频的时空信息,在智能视频分析系统里具有良好的应用价值,能够有效提升下游任务的准确度。
技术关键词
动作定位方法
转换器
计算机可执行指令
生成动作
代表
智能视频分析系统
视频时空特征
人工标记
多层感知网络
定义
编码器解码器
交叉注意力机制
多头注意力机制
算法
参数
解码网络
系统为您推荐了相关专利信息
智能合约漏洞
学习方法
门控循环单元
更新模型参数
表达式
光伏组件
滑动窗口
退化模型
特征长度尺度
寿命预测系统
反演方法
摄像头坐标系
高速公路能见度
车道
二值化图像
维修决策优化
粒子
设备维修数据
系统设备
算法模型