摘要
本申请公开了一种键值缓存方法、装置、设备、存储介质及产品,涉及数据存储技术领域,该方法包括:根据模型的每个图像提示编码构建图像提示的场景图,并根据场景图确定每个视觉对象的完整特征表示,与每个图像提示编码进行融合,将获得的最终视觉特征表示和文本提示编码进行融合,获得多模态提示向量编码;根据键层的权重矩阵和值层的权重矩阵分别确定多模态提示向量编码的键值对,并将键值对进行键值缓存。由于本申请根据图像提示的场景图实现了图像原始特征和场景图对象特征的融合,删减了图像模态中的冗余视觉信息,并缩减了图像编码的长度,从而解决了键值缓存中内存浪费导致模型推理效率低的问题,提高了多模态大语言模型的推理效率。
技术关键词
键值
对象
缓存方法
融合规则
多模态
视觉特征
节点特征
文本
大语言模型
场景
图像编码器
缓存装置
矩阵
计算机程序产品
邻居
数据存储技术
系统为您推荐了相关专利信息
文档对象模型
终端主题
计算机设备
终端面板
客户端
智能预警方法
肌肉电信号
预警模型
LSTM神经网络
儿童
构造柱钢筋
偏移预测方法
施工现场
视觉特征
拓扑图
人机交互方法
汽车导航
场景分类
驾驶者
车辆周围环境