摘要
本公开提供了一种视频检索定位方法、训练方法、电子设备、存储介质及程序产品。训练方法包括:将每个视频样本的粗粒度视觉特征和所匹配的查询文本的文本特征输入粗粒度定位模块,得到该视频样本针对所匹配的查询文本的片段定位聚焦位置;将每个视频样本针对所匹配的查询文本的片段定位聚焦位置、细粒度视觉特征、所匹配的查询文本的文本特征输入细粒度定位模块,得到该视频样本针对所匹配的查询文本的定位片段的边界及片段匹配度;基于当前批次训练样本中的各个视频样本的细粒度视觉特征、各个查询文本的文本特征、各个视频样本针对所匹配的查询文本的定位片段的边界及片段匹配度,确定视频检索定位模型的总损失。
技术关键词
视频
文本
检索定位方法
视觉特征
样本
计算机可执行指令
定位模块
语义
电子设备
处理器
计算机程序产品
可读存储介质
参数
存储器