摘要
本发明涉及监控视频处理技术领域。提供一种基于多模态模型的监控视频回看方法和装置。该方法包括:将不同业务场景的实时监控视频按指定时长分片,生成视频片段序列;进一步为所述视频片段序列中每个视频片段生成唯一索引标识,并建立索引标识与各视频片段的映射关系表;采用CNN与VGGish模型从不同业务场景的实时监控视频中提取多模态特征,采用Transformer模型提取全局依赖关系特征,将所提取的多模态特征和全局依赖关系特征进行融合以得到融合特征,进一步生成自然语言描述,以构建跨模态检索的向量空间,存入向量数据库以形成各视频片段的存储路径,所述多模态特征包括音频特征、行为识别特征;接收用户输入的查询语句,将所述查询语句转换为向量表示,并在所述向量数据库中进行相似性搜索,以得到与待查询语句相对应的视频片段。本发明能更精确地进行检索,提升了回看效率。
技术关键词
回看方法
融合特征
多模态特征
识别特征
音频特征
回看装置
多头注意力机制
生成视频片段
索引
映射关系表
语句
语义向量
梯度下降法
自然语言
跨模态