摘要
本公开涉及人工智能与自然语言处理技术领域,具体涉及一种用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统,所述方法包括:对于当前Transformer层计算的第i个词元的查询向量,计算其与所有键向量的注意力分数;基于所述注意力分数执行V缓存动态更新操作;针对第i个词元,在基于全部完成V缓存动态更新操作之后,使用V缓存存储池中更新后的值向量集合与预计算的注意力分数部分积P进行注意力计算。上述技术方案解决了现有技术中显存占用与计算效率难以协同优化的技术问题,具有动态管理KV缓存显存占用、保持模型推理质量、提升计算效率的优点。
技术关键词
注意力
动态更新
恢复方法
矩阵
存储池
推理系统
计算机
自然语言
阶段
可读存储介质
指令
参数
解码
模块
处理器
系统为您推荐了相关专利信息
语义特征
分析方法
融合特征
文本
计算机可读指令
多源遥感影像数据
神经网络模型
纹理特征
水面
特征提取模块
无人机机场
环境监测无人机
航线规划方法
坐标点
距离信息
知识图谱问答
动态更新方法
关系
注意力机制
词嵌入向量