用于视频理解的指令感知记忆装置

正文

推荐专利

用于视频理解的指令感知记忆装置

申请号：CN202510953397

申请日期：2025-07-10

公开号：CN120763358A

公开日期：2025-10-10

类型：发明专利

摘要

本发明提供了一种用于视频理解的指令感知记忆装置，包括：包括文本‑视觉记忆库模块和交叉注意力模块；所述文本‑视觉记忆库模块，用于存储和检索跨模态特征，支持视频分析，所述文本‑视觉记忆库模块与多模态大语言模型集成，通过增量式处理视频数据，克服内存与上下文长度的限制；所述交叉注意力模块，用于融合文本和视觉特征，生成跨模态表示。通过引入文本‑视觉记忆库和交叉注意力模块，实现了视频与文本信息的早期融合与长期记忆管理。能够有效捕捉视频中的细粒度时间依赖关系，提升模型在长视频理解任务中的性能，从而达到提高视频理解的准确性和效率的目的。

技术关键词

记忆装置视觉特征大语言模型文本交叉注意力机制跨模态多模态融合机制指令对齐模块视频分析模态特征生成自然语言时间序列特征记忆管理多模态信息解码机制

系统为您推荐了相关专利信息

大模型语义驱动的公交碳效率干预评估方法、设备、介质

语义特征联合损失函数站点路段效应

一种基于三幕结构思维链和语义自洽的事件驱动故事生成方法及系统

故事生成方法文本预训练语言模型语义向量序列

面向检索增强生成系统的错误定位方法、电子设备、介质

生成系统错误定位方法三元组大语言模型答案

一种基于大语言模型的题库生成系统及方法

学生学习数据大语言模型生成系统题库生成方法监控模块

基于大模型的个性化面试题生成方法、装置及电子设备

NLP技术试题难度关键词文本 BERT模型

用于视频理解的指令感知记忆装置

站点导航

APP 下载