摘要
本发明实施例提供了视频检索的方法及装置、产品、电子设备、存储介质,包括:获取多个初始视频,并将每个初始视频分为多个视频片段,获取每个视频片段的视频特征数据并保存,响应于视频检索请求,获取视频检索请求对应的检索文本,获取检索文本的文本特征数据,并确定文本特征数据与每个视频特征数据的第一相似度指标值,根据第一相似度指标值,在多个初始视频中确定多个目标视频,并确定每个目标视频对应的第一目标视频片段,将第一目标视频片段和检索文本输入预训练的目标多模态模型中,得到第一目标视频片段和检索文本的第二相似度指标值,根据第一目标视频片段和第二相似度指标值生成检索结果并返回,实现了文本检索视频的精准定位。
技术关键词
视频特征数据
文本
多模态
样本
上存储计算机程序
电子设备
处理器
可读存储介质
多层感知机
模块
计算机程序产品
注意力机制
融合特征
时序
存储器
图像
系统为您推荐了相关专利信息
医疗辅助机器人
三维环境感知
路径规划方法
智能避障
社会力模型
柴油机
龙格库塔算法
曲轴箱窜气
样本
多标签分类方法
关键信息提取方法
排水管道
视频帧集合
深度学习训练
场景