用于视频理解的指令感知记忆装置

AITNT
正文
推荐专利
用于视频理解的指令感知记忆装置
申请号:CN202510953397
申请日期:2025-07-10
公开号:CN120763358A
公开日期:2025-10-10
类型:发明专利
摘要
本发明提供了一种用于视频理解的指令感知记忆装置,包括:包括文本‑视觉记忆库模块和交叉注意力模块;所述文本‑视觉记忆库模块,用于存储和检索跨模态特征,支持视频分析,所述文本‑视觉记忆库模块与多模态大语言模型集成,通过增量式处理视频数据,克服内存与上下文长度的限制;所述交叉注意力模块,用于融合文本和视觉特征,生成跨模态表示。通过引入文本‑视觉记忆库和交叉注意力模块,实现了视频与文本信息的早期融合与长期记忆管理。能够有效捕捉视频中的细粒度时间依赖关系,提升模型在长视频理解任务中的性能,从而达到提高视频理解的准确性和效率的目的。
技术关键词
记忆装置 视觉特征 大语言模型 文本 交叉注意力机制 跨模态 多模态融合机制 指令 对齐模块 视频分析 模态特征 生成自然语言 时间序列特征 记忆管理 多模态信息 解码机制
系统为您推荐了相关专利信息
1
大模型语义驱动的公交碳效率干预评估方法、设备、介质
语义特征 联合损失函数 站点 路段 效应
2
一种基于三幕结构思维链和语义自洽的事件驱动故事生成方法及系统
故事生成方法 文本 预训练语言模型 语义向量 序列
3
面向检索增强生成系统的错误定位方法、电子设备、介质
生成系统 错误定位方法 三元组 大语言模型 答案
4
一种基于大语言模型的题库生成系统及方法
学生学习数据 大语言模型 生成系统 题库生成方法 监控模块
5
基于大模型的个性化面试题生成方法、装置及电子设备
NLP技术 试题难度 关键词 文本 BERT模型
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号