摘要
本发明提供了一种用于视频理解的指令感知记忆装置,包括:包括文本‑视觉记忆库模块和交叉注意力模块;所述文本‑视觉记忆库模块,用于存储和检索跨模态特征,支持视频分析,所述文本‑视觉记忆库模块与多模态大语言模型集成,通过增量式处理视频数据,克服内存与上下文长度的限制;所述交叉注意力模块,用于融合文本和视觉特征,生成跨模态表示。通过引入文本‑视觉记忆库和交叉注意力模块,实现了视频与文本信息的早期融合与长期记忆管理。能够有效捕捉视频中的细粒度时间依赖关系,提升模型在长视频理解任务中的性能,从而达到提高视频理解的准确性和效率的目的。
技术关键词
记忆装置
视觉特征
大语言模型
文本
交叉注意力机制
跨模态
多模态融合机制
指令
对齐模块
视频分析
模态特征
生成自然语言
时间序列特征
记忆管理
多模态信息
解码机制
系统为您推荐了相关专利信息
故事生成方法
文本
预训练语言模型
语义向量
序列
学生学习数据
大语言模型
生成系统
题库生成方法
监控模块