一种基于自适应稀疏记忆与语言模型的长期视频理解系统

AITNT
正文
推荐专利
一种基于自适应稀疏记忆与语言模型的长期视频理解系统
申请号:CN202510594221
申请日期:2025-05-09
公开号:CN120526345A
公开日期:2025-08-22
类型:发明专利
摘要
本发明提供一种基于自适应稀疏记忆与语言模型的长期视频理解系统,包括:用于从长视频中提取视觉特征的视觉编码器;用于存储和检索历史视频内容的视觉特征的记忆库模块;用于动态管理记忆库模块的稀疏自适应模块,记忆库模块通过查询变换器Q‑Former与多模态大语言模型进行交互,用于增量式处理处理视频数据,将视觉特征映射到语言空间。本发明通过引入自适应稀疏记忆机制,能够有效处理长期视频序列,且能够动态压缩冗余特征,保留关键信息,从而实现对长视频的高效分析;本发明在多个任务具有较高的准确率,而且通过稀疏自适应机制,能够动态管理记忆库,减少冗余特征的处理,从而降低了计算开销,提升了系统的整体效率。
技术关键词
视觉特征 理解系统 交叉注意力机制 大语言模型 变换器 冗余特征 对齐模块 流媒体视频数据 动态 内存 生成自然语言 时间序列特征 多模态信息 解码机制 记忆机制
系统为您推荐了相关专利信息
1
一种基于深度学习的跨模态图像文本检索方法
文本检索方法 BERT模型 图像特征提取 自然语言文本 图像共享特征
2
基于人工智能的产品因子库构建方法、装置、设备及介质
库构建方法 因子 人工智能模型 场景 图像视觉特征向量
3
问题应答方法及装置、计算机可读存储介质、电子设备
查询场景 策略 复杂度 大语言模型 应答装置
4
一种基于载波调制的T型三电平变换器高性能控制方法
高性能控制方法 载波 变换器 扇区 电平
5
图像检测方法、电子设备和存储介质
视觉特征 图像检测方法 文本编码器 模块 计算机程序指令
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号