大语言模型推理优化方法、系统、设备及存储介质

正文

推荐专利

申请号：CN202411881594

申请日期：2024-12-19

公开号：CN119323264B

公开日期：2025-03-25

类型：发明专利

摘要

本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质，它们是相对应的方案，方案中：在大语言模型推理过程中引入数据聚类与量化机制，当KV缓存的大小超过预设阈值时，首先将KV缓存数据进行聚类划分，再对部分数据进行低精度量化处理，另一部分则通过聚类中心代替，达到减少KV缓存大小的目的。通过本发明的方案，能够显著降低推理过程中的显存占用，提高推理效率，并优化系统资源的利用率。

技术关键词

大语言模型注意力优化系统资源交叉验证方法概率分布函数初始聚类中心策略启发式算法均值算法判别模块处理器数据分布聚类算法键值可读存储介质组织

大语言模型推理优化方法、系统、设备及存储介质

站点导航

APP 下载