摘要
本发明提供一种基于时空融合的多模态存量视频高效检索方法与装置,包括:计算待检索视频的帧间相似度,并基于帧间相似度删除待检索视频的冗余帧,得到目标待检索视频;基于查询文本对目标待检索视频进行筛选处理,得到多个目标待检索视频片段;对查询文本和多个目标待检索视频片段分别进行特征提取处理,得到文本特征和多个视频特征;调用基于多模态融合的视频片段检索模型基于文本特征和多个视频特征进行模态交互预测,得到预测结果,并基于预测结果确定多个目标待检索视频片段中与查询文本对应的目标视频片段,通过删除冗余帧以及层级化目标视频片段搜索,实现从海量视频中快速筛选出目标视频片段,有效提升了视频筛选的效率。
技术关键词
视频
检索方法
文本
录像设备
多模态
融合特征
非暂态计算机可读存储介质
关键帧
冗余
软件开发工具包
处理器
特征提取模块
检索装置
关键词
计算机程序产品
匹配模块
存储器
电子设备
图像
系统为您推荐了相关专利信息
炎症性肠病患者
超声内镜
分析方法
多模态数据融合
特征值
图像生成模型
大语言模型
图像生成方法
语义向量
文本编码器
语句
自然语言
BERT模型
大语言模型
行业知识图谱