用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统

首页 AI资讯 AI技术研报 AI监管政策 AI产品测评 AI商业项目 arena全球大模型排行榜 AI产品热榜 AI 源力市场 AI专利库 AI需求对接 AI新闻日报
下载 AITNT APP
🍎 iOS 下载 🤖 Android 下载
正文
推荐专利
用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统
申请号:CN202511475772
申请日期:2025-10-16
公开号:CN120975245B
公开日期:2025-12-12
类型:发明专利
摘要
本公开涉及人工智能与自然语言处理技术领域,具体涉及一种用于大型语言模型推理的KV缓存压缩与逐出词元恢复方法及系统,所述方法包括:对于当前Transformer层计算的第i个词元的查询向量,计算其与所有键向量的注意力分数;基于所述注意力分数执行V缓存动态更新操作;针对第i个词元,在基于全部完成V缓存动态更新操作之后,使用V缓存存储池中更新后的值向量集合与预计算的注意力分数部分积P进行注意力计算。上述技术方案解决了现有技术中显存占用与计算效率难以协同优化的技术问题,具有动态管理KV缓存显存占用、保持模型推理质量、提升计算效率的优点。
技术关键词
注意力 动态更新 恢复方法 矩阵 存储池 推理系统 计算机 自然语言 阶段 可读存储介质 指令 参数 解码 模块 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号