摘要
本发明提供了一种第一视角视频定位方法及系统,获取第一视角视频和查询文本;使用预训练的物品检测器从第一视角视频中提取物品注释,并通过与查询文本中的名词匹配筛选出与查询相关的物品类别;利用预训练的特征编码器编码视频、物品和文本信息,提取出视频特征、物品特征与文本特征,进行文本特征上下文建模,并执行文本与物品间的特征交互;利用包含使用选择性状态空间的线性时间序列模型以及交叉注意力的多模态融合模块进行视频特征序列理解和特征融合,获得多模态特征表示;使用所述多模态特征表示,进行第一视角视频片段定位。本发明克服了现有技术中缺乏细粒度语义信息和难以理解第一视角视频的缺陷。
技术关键词
视频定位方法
物品特征
时间序列模型
多模态特征
视角
交叉注意力机制
视频定位系统
检测器
线性
语义
文本编码器
计算机
特征金字塔
模块
系统为您推荐了相关专利信息
分布式限流方法
时间序列模型
ARIMA模型
LSTM模型
识别流量数据
假新闻检测方法
多模态特征
多层级特征
文本
视觉特征
音频特征
多模态特征融合
编辑方法
频段
计算机可执行指令
无人机导航方法
环境图像数据
避障距离
无人机导航技术
结点
光学相干断层扫描
彩色影像数据
特征提取单元
三维卷积神经网络
梯度提升决策树