用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统

AITNT
正文
推荐专利
用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统
申请号:CN202511475772
申请日期:2025-10-16
公开号:CN120975245B
公开日期:2025-12-12
类型:发明专利
摘要
本公开涉及人工智能与自然语言处理技术领域,具体涉及一种用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统,所述方法包括:对于当前Transformer层计算的第i个词元的查询向量,计算其与所有键向量的注意力分数;基于所述注意力分数执行V缓存动态更新操作;针对第i个词元,在基于全部完成V缓存动态更新操作之后,使用V缓存存储池中更新后的值向量集合与预计算的注意力分数部分积P进行注意力计算。上述技术方案解决了现有技术中显存占用与计算效率难以协同优化的技术问题,具有动态管理KV缓存显存占用、保持模型推理质量、提升计算效率的优点。
技术关键词
注意力 动态更新 恢复方法 矩阵 存储池 推理系统 计算机 自然语言 阶段 可读存储介质 指令 参数 解码 模块 处理器
系统为您推荐了相关专利信息
1
产险保障范围分析方法、装置、计算机设备及存储介质
语义特征 分析方法 融合特征 文本 计算机可读指令
2
一种多源数据融合与深层特征筛选的湖泊水面提取方法
多源遥感影像数据 神经网络模型 纹理特征 水面 特征提取模块
3
一种非编码RNA与疾病关联预测的优化方法
异构 疾病 XGBoost模型 编码器 训练集
4
沙漠中环境监测无人机的航线规划方法、装置及介质
无人机机场 环境监测无人机 航线规划方法 坐标点 距离信息
5
基于强化学习的多跳知识图谱问答状态动态更新方法
知识图谱问答 动态更新方法 关系 注意力机制 词嵌入向量
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号