一种基于多模态模型的监控视频回看方法和装置

正文

推荐专利

申请号：CN202510404509

申请日期：2025-04-01

公开号：CN120201147A

公开日期：2025-06-24

类型：发明专利

摘要

本发明涉及监控视频处理技术领域。提供一种基于多模态模型的监控视频回看方法和装置。该方法包括：将不同业务场景的实时监控视频按指定时长分片，生成视频片段序列；进一步为所述视频片段序列中每个视频片段生成唯一索引标识，并建立索引标识与各视频片段的映射关系表；采用CNN与VGGish模型从不同业务场景的实时监控视频中提取多模态特征，采用Transformer模型提取全局依赖关系特征，将所提取的多模态特征和全局依赖关系特征进行融合以得到融合特征，进一步生成自然语言描述，以构建跨模态检索的向量空间，存入向量数据库以形成各视频片段的存储路径，所述多模态特征包括音频特征、行为识别特征；接收用户输入的查询语句，将所述查询语句转换为向量表示，并在所述向量数据库中进行相似性搜索，以得到与待查询语句相对应的视频片段。本发明能更精确地进行检索，提升了回看效率。

技术关键词

回看方法融合特征多模态特征识别特征音频特征回看装置多头注意力机制生成视频片段索引映射关系表语句语义向量梯度下降法自然语言跨模态

一种基于多模态模型的监控视频回看方法和装置

站点导航

APP 下载