摘要
本发明公开了一种基于双曲空间表示的视频检索方法、系统、终端设备及介质,涉及视频检索技术领域,所述方法包括:通过对待检索视频进行特征提取、稀疏采样,并经过全连接层FC与HLFormer模块的处理,得到双曲空间表示增强的视频特征;通过对待查询文本进行特征提取,并经过全连接层FC、Transformer模块与注意力池化模块Attention,得到文本语句特征;通过文本语句特征和视频特征进行余弦相似度计算,将最高的视频片段余弦相似度作为检索得分,并选取检索得分最高的视频作为待查询文本对应的目标视频。本发明通过HLFormer模块在混合空间中对视频特征进行编码与动态融合多尺度特征,利用双曲空间学习来弥补欧几里得空间在视频层次建模方面的不足,提高了视频检索性能。
技术关键词
视频检索方法
注意力
文本
模块
语句
表达式
终端设备
融合多尺度特征
视频检索系统
视频检索技术
前馈神经网络
可读存储介质
处理器
线性
键特征
矩阵
程序
指数
系统为您推荐了相关专利信息
惯性导航单元
Viterbi算法
交叉口
车载惯性导航
定位方法
图像特征向量
文本特征向量
样本
大语言模型
图片
时序神经网络
动态分配优化方法
声纹特征
图像特征量
多模态