摘要
本发明提供一种基于自适应稀疏记忆与语言模型的长期视频理解系统,包括:用于从长视频中提取视觉特征的视觉编码器;用于存储和检索历史视频内容的视觉特征的记忆库模块;用于动态管理记忆库模块的稀疏自适应模块,记忆库模块通过查询变换器Q‑Former与多模态大语言模型进行交互,用于增量式处理处理视频数据,将视觉特征映射到语言空间。本发明通过引入自适应稀疏记忆机制,能够有效处理长期视频序列,且能够动态压缩冗余特征,保留关键信息,从而实现对长视频的高效分析;本发明在多个任务具有较高的准确率,而且通过稀疏自适应机制,能够动态管理记忆库,减少冗余特征的处理,从而降低了计算开销,提升了系统的整体效率。
技术关键词
视觉特征
理解系统
交叉注意力机制
大语言模型
变换器
冗余特征
对齐模块
流媒体视频数据
动态
内存
生成自然语言
时间序列特征
多模态信息
解码机制
记忆机制
系统为您推荐了相关专利信息
文本检索方法
BERT模型
图像特征提取
自然语言文本
图像共享特征
库构建方法
因子
人工智能模型
场景
图像视觉特征向量
视觉特征
图像检测方法
文本编码器
模块
计算机程序指令