摘要
本发明公开了一种长视频定位方法、系统、设备及存储介质,它们是一一对应的方案,方案中采用逐步定位的方式,首先,通过视频和文本引导来识别高光的视频帧,从而得到与查询文本对齐的视频片段,避免现有方法直接从长视频中提取片段,缺乏长视频对文本的整体感知的问题;在获得与查询文本对齐的视频片段的基础上进一步定位得到精准的时刻;逐步定位的方式中每一步定位进一步加强了视频与查询文本之间的联系,因而,可以获得更准确的定位结果。
技术关键词
视频定位方法
文本
视频帧
状态空间模型
视频定位系统
支路
交叉注意力机制
输出特征
融合特征
解码器
线性
样本
定位模块
视频编码器
特征提取模块
多层感知机
数据获取模块
系统为您推荐了相关专利信息
短信模板
文本
插值模块
配置系统
计算机可读指令
空间结构特征
图像生成模型
语义特征
风格
图像生成方法
图像分割算法
空间模块
医学图像特征
状态空间模型
多路径