一种基于低秩细粒度提示的多模态视频检索方法和系统

正文

推荐专利

申请号：CN202510542738

申请日期：2025-04-28

公开号：CN120067390B

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了一种基于低秩细粒度提示的多模态视频检索方法和系统，属于多模态视频检索领域。预训练含视频、字幕表征生成模块的多模态模型；在视频表征生成模块前N‑1层编码器每层引入提示更新模块，微调后生成各层各模态细粒度提示。微调时，将各模态视频特征与对应提示拼接成多模态输入，进入当前编码器层，同时各模态提示拼接进入提示更新模块更新，更新后的提示替换当前编码器层输出中的对应提示；固定微调得到的各模态提示，在视频表征生成模块将前一编码器输出的各模态视频特征与当前层各模态提示拼接作为当前层多模态输入，最终得到的视频表征用于匹配字幕表征，本发明可以实现模态数量及类型可扩展的多模态提示学习。

技术关键词

视频检索方法多模态字幕模块特征提取网络视频检索系统光学字符识别编码器结构模态特征学习方法矩阵音频视觉元素基础关系

一种基于低秩细粒度提示的多模态视频检索方法和系统

站点导航

APP 下载