摘要
本发明公开了一种基于高效率注意力机制的视频检索特征提取方法,属于计算机视觉领域。包括如下步骤:构建基于高效率注意力机制的带有语义感知的特征网络;获取图像训练样本和文本图像对的训练样本;利用基于图像数据随机增强的自监督学习方法预训练得到图像特征编码器;利用基于图像文本对的跨模态语义的自监督学习方法预训练到图像语义特征编码器;对两个编码器进一步联合训练,得到最终的用于短视频检索的视频特征提取网络,将待查询视频抽帧并将视频帧输入视频特征提取网络,即可提取视频图像的特征。本发明可以在大幅度提高短视频检索工作的视频特征提取效率的前提下,保证特征网络兼顾视频画面的浅层细节特征和时间语义特征,提高检索的最终性能。
技术关键词
图像训练样本
注意力机制
语义特征
特征提取方法
高效率
监督学习方法
视频特征提取
文本编码器
网络
视频帧
短视频
三元组
特征提取系统
损失函数优化
编码器训练
系统为您推荐了相关专利信息
车用电池
注意力机制
增量学习算法
融合网络架构
交互注意力
时间滑动窗口
联合优化方法
数据处理流水线
决策树模型
动态更新
动作识别模型
车辆控制方法
回波
飞行时间传感器
车辆控制设备