大语言模型推理优化方法、系统、设备及存储介质

AITNT
正文
推荐专利
大语言模型推理优化方法、系统、设备及存储介质
申请号:CN202511511942
申请日期:2025-10-22
公开号:CN120996208A
公开日期:2025-11-21
类型:发明专利
摘要
本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质,它们是相对应的方案,方案中:在大语言模型推理时,卸载大部分KV数据至CPU内存。对于KV数据从CPU内存至GPU显存的读取,采用top‑k注意力降低其读取量;并且,将已读取至GPU显存的KV数据进行缓存,使用近似缓存算法、按照KV头为基本单元进行管理;当推理过程中需要读取KV数据时,优先从GPU显存中进行读取,若无法使用,再进行数据预取;得益于以上改进,上述方案可有效降低KV数据占用的显存,并且最小化CPU至GPU的KV数据读取开销,使得推理性能达到理想水平。
技术关键词
大语言模型 数据传输同步方法 缓存算法 内存 注意力 图形处理器 计算机扩展总线 中央处理器 寻址技术 拷贝 阶段 解码单元 动态 成绩 变量 离线 信号
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号