一种基于自适应稀疏记忆与语言模型的长期视频理解系统

正文

推荐专利

申请号：CN202510594221

申请日期：2025-05-09

公开号：CN120526345A

公开日期：2025-08-22

类型：发明专利

摘要

本发明提供一种基于自适应稀疏记忆与语言模型的长期视频理解系统，包括：用于从长视频中提取视觉特征的视觉编码器；用于存储和检索历史视频内容的视觉特征的记忆库模块；用于动态管理记忆库模块的稀疏自适应模块，记忆库模块通过查询变换器Q‑Former与多模态大语言模型进行交互，用于增量式处理处理视频数据，将视觉特征映射到语言空间。本发明通过引入自适应稀疏记忆机制，能够有效处理长期视频序列，且能够动态压缩冗余特征，保留关键信息，从而实现对长视频的高效分析；本发明在多个任务具有较高的准确率，而且通过稀疏自适应机制，能够动态管理记忆库，减少冗余特征的处理，从而降低了计算开销，提升了系统的整体效率。

技术关键词

视觉特征理解系统交叉注意力机制大语言模型变换器冗余特征对齐模块流媒体视频数据动态内存生成自然语言时间序列特征多模态信息解码机制记忆机制

系统为您推荐了相关专利信息

一种基于深度学习的跨模态图像文本检索方法

文本检索方法 BERT模型图像特征提取自然语言文本图像共享特征

基于人工智能的产品因子库构建方法、装置、设备及介质

库构建方法因子人工智能模型场景图像视觉特征向量

问题应答方法及装置、计算机可读存储介质、电子设备

查询场景策略复杂度大语言模型应答装置

一种基于载波调制的T型三电平变换器高性能控制方法

高性能控制方法载波变换器扇区电平

图像检测方法、电子设备和存储介质

视觉特征图像检测方法文本编码器模块计算机程序指令

一种基于自适应稀疏记忆与语言模型的长期视频理解系统

站点导航

APP 下载