一种第一视角视频定位方法及系统

正文

推荐专利

一种第一视角视频定位方法及系统

申请号：CN202510510087

申请日期：2025-04-23

公开号：CN120032301B

公开日期：2025-07-04

类型：发明专利

摘要

本发明提供了一种第一视角视频定位方法及系统，获取第一视角视频和查询文本；使用预训练的物品检测器从第一视角视频中提取物品注释，并通过与查询文本中的名词匹配筛选出与查询相关的物品类别；利用预训练的特征编码器编码视频、物品和文本信息，提取出视频特征、物品特征与文本特征，进行文本特征上下文建模，并执行文本与物品间的特征交互；利用包含使用选择性状态空间的线性时间序列模型以及交叉注意力的多模态融合模块进行视频特征序列理解和特征融合，获得多模态特征表示；使用所述多模态特征表示，进行第一视角视频片段定位。本发明克服了现有技术中缺乏细粒度语义信息和难以理解第一视角视频的缺陷。

技术关键词

视频定位方法物品特征时间序列模型多模态特征视角交叉注意力机制视频定位系统检测器线性语义文本编码器计算机特征金字塔模块

系统为您推荐了相关专利信息

一种基于时间序列预测算法的云服务分布式限流方法

分布式限流方法时间序列模型 ARIMA模型 LSTM模型识别流量数据

一种基于多层级特征融合与对比学习的多模态假新闻检测方法

假新闻检测方法多模态特征多层级特征文本视觉特征

多模态特征融合的高品质智能声线编辑方法及装置

音频特征多模态特征融合编辑方法频段计算机可执行指令

基于平面可见性的无人机导航方法

无人机导航方法环境图像数据避障距离无人机导航技术结点

一种基于人工智能的视网膜脉络膜病程结构变化监测系统

光学相干断层扫描彩色影像数据特征提取单元三维卷积神经网络梯度提升决策树

一种第一视角视频定位方法及系统

站点导航

APP 下载