多模态检索模型的确定方法、装置及电子设备

正文

推荐专利

申请号：CN202411442321

申请日期：2024-10-15

公开号：CN119336947A

公开日期：2025-01-21

类型：发明专利

摘要

本申请公开了一种多模态检索模型的确定方法、装置及电子设备。其中，方法包括：获取用于训练多模态检索模型的视频数据和文本数据；通过多模态检索模型中的视频编码器对视频数据进行特征提取处理，得到视频数据的视频表示，视频表示包括摘要令牌、局部提示令牌和全局提示令牌；通过多模态检索模型中的文本编码器对文本数据进行编码处理，得到文本表示；依据视频表示和文本表示之间的相似度优化多模态检索模型，得到目标多模态检索模型。本申请解决了相关技术中在保持CLIP零样本泛化能力的同时，往往无法有效地适应视频领域，导致性能下降或无法充分利用文本和视觉信息的技术问题。

技术关键词

视频编码器令牌多模态数据序列非易失性存储介质文本编码器摘要存储程序指令电子设备计算机程序产品注意力机制存储器处理器线性视频帧

多模态检索模型的确定方法、装置及电子设备

站点导航

APP 下载