摘要
本发明公开了一种基于低秩细粒度提示的多模态视频检索方法和系统,属于多模态视频检索领域。预训练含视频、字幕表征生成模块的多模态模型;在视频表征生成模块前N‑1层编码器每层引入提示更新模块,微调后生成各层各模态细粒度提示。微调时,将各模态视频特征与对应提示拼接成多模态输入,进入当前编码器层,同时各模态提示拼接进入提示更新模块更新,更新后的提示替换当前编码器层输出中的对应提示;固定微调得到的各模态提示,在视频表征生成模块将前一编码器输出的各模态视频特征与当前层各模态提示拼接作为当前层多模态输入,最终得到的视频表征用于匹配字幕表征,本发明可以实现模态数量及类型可扩展的多模态提示学习。
技术关键词
视频检索方法
多模态
字幕
模块
特征提取网络
视频检索系统
光学字符识别
编码器结构
模态特征
学习方法
矩阵
音频
视觉
元素
基础
关系