一种第一视角视频定位方法及系统

AITNT
正文
推荐专利
一种第一视角视频定位方法及系统
申请号:CN202510510087
申请日期:2025-04-23
公开号:CN120032301B
公开日期:2025-07-04
类型:发明专利
摘要
本发明提供了一种第一视角视频定位方法及系统,获取第一视角视频和查询文本;使用预训练的物品检测器从第一视角视频中提取物品注释,并通过与查询文本中的名词匹配筛选出与查询相关的物品类别;利用预训练的特征编码器编码视频、物品和文本信息,提取出视频特征、物品特征与文本特征,进行文本特征上下文建模,并执行文本与物品间的特征交互;利用包含使用选择性状态空间的线性时间序列模型以及交叉注意力的多模态融合模块进行视频特征序列理解和特征融合,获得多模态特征表示;使用所述多模态特征表示,进行第一视角视频片段定位。本发明克服了现有技术中缺乏细粒度语义信息和难以理解第一视角视频的缺陷。
技术关键词
视频定位方法 物品特征 时间序列模型 多模态特征 视角 交叉注意力机制 视频定位系统 检测器 线性 语义 文本编码器 计算机 特征金字塔 模块
系统为您推荐了相关专利信息
1
一种基于时间序列预测算法的云服务分布式限流方法
分布式限流方法 时间序列模型 ARIMA模型 LSTM模型 识别流量数据
2
一种基于多层级特征融合与对比学习的多模态假新闻检测方法
假新闻检测方法 多模态特征 多层级特征 文本 视觉特征
3
多模态特征融合的高品质智能声线编辑方法及装置
音频特征 多模态特征融合 编辑方法 频段 计算机可执行指令
4
基于平面可见性的无人机导航方法
无人机导航方法 环境图像数据 避障距离 无人机导航技术 结点
5
一种基于人工智能的视网膜脉络膜病程结构变化监测系统
光学相干断层扫描 彩色影像数据 特征提取单元 三维卷积神经网络 梯度提升决策树
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号