摘要
本发明涉及多模态信息处理技术领域,具体公开了用于海量执法音视频数据的多模态检索增强生成系统,包括:基于声纹辅助的多模态索引模块,用于根据记录仪音视频生成多模态表示;使用多模态融合编码器处理多模态表示,构建知识图谱数据库;多模态检索与生成模块,用于接收用户查询,提取多模态关键词;查询知识图谱数据库,得到融合检索集;利用VLM和LLM生成关联事件综合分析报告;知识图谱数据库模块,用于存储和管理知识图谱数据库。本发明通过声纹辅助的知识图谱构建和知识驱动的检索机制,实现执法音视频内容的结构化索引、语义关联、跨场景说话人关联、高效内容生成,并最终输出关联事件综合分析报告。
技术关键词
知识图谱数据库
生成系统
音视频
多模态
关键词
构建知识图谱
声纹标识
生成字幕
视觉
记录仪
交叉注意力机制
节点
自动语音识别
知识图谱构建
展示实体
编码器
模块
信息处理技术