用于海量执法音视频数据的多模态检索增强生成系统

AITNT
正文
推荐专利
用于海量执法音视频数据的多模态检索增强生成系统
申请号:CN202511342447
申请日期:2025-09-19
公开号:CN120821873A
公开日期:2025-10-21
类型:发明专利
摘要
本发明涉及多模态信息处理技术领域,具体公开了用于海量执法音视频数据的多模态检索增强生成系统,包括:基于声纹辅助的多模态索引模块,用于根据记录仪音视频生成多模态表示;使用多模态融合编码器处理多模态表示,构建知识图谱数据库;多模态检索与生成模块,用于接收用户查询,提取多模态关键词;查询知识图谱数据库,得到融合检索集;利用VLM和LLM生成关联事件综合分析报告;知识图谱数据库模块,用于存储和管理知识图谱数据库。本发明通过声纹辅助的知识图谱构建和知识驱动的检索机制,实现执法音视频内容的结构化索引、语义关联、跨场景说话人关联、高效内容生成,并最终输出关联事件综合分析报告。
技术关键词
知识图谱数据库 生成系统 音视频 多模态 关键词 构建知识图谱 声纹标识 生成字幕 视觉 记录仪 交叉注意力机制 节点 自动语音识别 知识图谱构建 展示实体 编码器 模块 信息处理技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号