摘要
本申请公开了一种视频检索方法及装置、电子设备、存储介质,所述方法包括:获取当前的各个待检索视频;将各个待检索视频分成多个分镜视频;针对每个目标检索维度,获取各个分镜视频的目标检索维度的文本描述;其中,目标检索维度包括字幕维度、音频维度及视觉维度;一个分镜视频的视觉维度的文本描述由分镜视频的上下文文本描述与分镜视频的各帧关键帧的文本描述组合;将各个分镜视频的目标检索维度的文本描述与检索问题结合,进行检索增强,得到基于目标检索维度的多个检索视频;将各个检索视频的各个目标检索维度的文本描述进行加权,得到多个分镜多维度文本描述;将各个分镜多维度文本描述与检索问题结合进行检索增强,得到最终检索结果。
技术关键词
文本
视频检索方法
视频帧
关键帧
图像编码
字幕
音频
空域特征
视觉
注意力
变换特征
大语言模型
视频检索装置
字符识别技术
频域特征
逆变换方法
离散小波变换
矩阵
电子设备
系统为您推荐了相关专利信息
多媒体推荐方法
异构
计算机程序指令
项目特征
矩阵
视频帧集合
识别方法
多尺度特征
通道
全局平均池化