摘要
本申请公开了一种多模态检索模型的确定方法、装置及电子设备。其中,方法包括:获取用于训练多模态检索模型的视频数据和文本数据;通过多模态检索模型中的视频编码器对视频数据进行特征提取处理,得到视频数据的视频表示,视频表示包括摘要令牌、局部提示令牌和全局提示令牌;通过多模态检索模型中的文本编码器对文本数据进行编码处理,得到文本表示;依据视频表示和文本表示之间的相似度优化多模态检索模型,得到目标多模态检索模型。本申请解决了相关技术中在保持CLIP零样本泛化能力的同时,往往无法有效地适应视频领域,导致性能下降或无法充分利用文本和视觉信息的技术问题。
技术关键词
视频编码器
令牌
多模态
数据
序列
非易失性存储介质
文本编码器
摘要
存储程序指令
电子设备
计算机程序产品
注意力机制
存储器
处理器
线性
视频帧