摘要
本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质,它们是相对应的方案,方案中:在大语言模型推理过程中引入数据聚类与量化机制,当KV缓存的大小超过预设阈值时,首先将KV缓存数据进行聚类划分,再对部分数据进行低精度量化处理,另一部分则通过聚类中心代替,达到减少KV缓存大小的目的。通过本发明的方案,能够显著降低推理过程中的显存占用,提高推理效率,并优化系统资源的利用率。
技术关键词
大语言模型
注意力
优化系统资源
交叉验证方法
概率分布函数
初始聚类中心
策略
启发式算法
均值算法
判别模块
处理器
数据分布
聚类算法
键值
可读存储介质
组织