摘要
本发明涉及多媒体信息处理、自然语言处理及机器学习技术领域,公开了上述视频检索方法、装置、计算机设备及存储介质,通过将检索文本输入到视频检索模型的文本编码器,得到检索文本的文本特征表征;将视频数据输入到视频检索模型的视频编码器,得到每个视频数据的多模态特征表征;然后,分别计算文本特征表征与每个多模态特征表征的特征相似度,选择特征相似度最大的视频数据作为检索到的目标视频数据。可见,本发明通过视频编码器提取视频数据的多模态特征表征来对视频数据进行检索,相较于通过视频数据中的单一图像特征来对视频数据进行检索,可以达到提高视频检索精度的目的。
技术关键词
视频检索方法
视频编码器
文本编码器
多模态特征
样本
上下文特征
视频检索装置
计算机设备
特征提取模型
机器学习技术
图像
可读存储介质
视频帧
动作特征
数据获取模块
系统为您推荐了相关专利信息
声纹特征
内容推荐模型
训练特征提取模型
内容推荐方法
音频