基于大模型与检索增强生成的长视频多模态理解与问答方法及系统

正文

推荐专利

申请号：CN202510933213

申请日期：2025-07-08

公开号：CN120832362A

公开日期：2025-10-24

类型：发明专利

摘要

本发明公开了一种基于大模型与检索增强生成的长视频多模态理解与问答方法及系统。所述方法包括：1)多模态特征提取模块；2)多模态同步与对齐机制；3)结构化记忆池构建；4)查询驱动生成机制；5)增量更新与记忆压缩策略；6)统一多模态表示空间。本发明提出了一种融合大语言模型与检索增强生成的长视频多模态理解方法，旨在突破传统方法在单模态处理与语义碎片化方面的局限。该方法通过视觉模型(如YOLO、ViT)提取视频图像特征，结合音频模型(如Whisper、Qwen‑Audio)获取语音转写与环境音描述，实现对长视频中视觉、语音、音频的统一编码。随后，通过语义一致性切分与时间戳对齐技术构建结构化记忆池，以存储不同模态的时间片段数据。

技术关键词

多模态语音识别模型记忆带时间问答方法分层存储架构大语言模型视觉视频图像特征物体检测语义 YOLO模型音频特征提取三元组对齐技术分片场景

基于大模型与检索增强生成的长视频多模态理解与问答方法及系统

站点导航

APP 下载