摘要
本公开实施例涉及一种视频检索模型的训练方法、视频检索方法和装置,其中该方法包括:获取视频样本和检索文本样本;获取视频样本对应的视觉特征、字幕文本特征和视频描述文本特征;将视觉特征、字幕文本特征和视频描述文本特征进行特征融合,得到视频特征表达;基于视频特征表达和检索文本样本输入待训练视频检索模型,并基于视频特征表达和检索文本样本对应的检索文本特征之间的相似度和预先设置的损失函数确定损失值以对模型参数进行调整,得到视频检索模型。本公开实施例通过将视觉特征、字幕文本特征和视频描述文本特征进行特征融合后训练得到视频检索模型,从而基于视频检索模型的视频检索的检索结果更准确、全面。
技术关键词
视频检索方法
样本
字幕
图像特征提取模型
视频检索装置
视频帧
视觉特征提取
光学字符识别
存储装置
转换文本
模块
特征选择
训练装置
电子设备
可读存储介质