大语言模型推理优化方法、系统、设备及存储介质

AITNT
正文
推荐专利
大语言模型推理优化方法、系统、设备及存储介质
申请号:CN202411881594
申请日期:2024-12-19
公开号:CN119323264B
公开日期:2025-03-25
类型:发明专利
摘要
本发明公开了一种大语言模型推理优化方法、系统、设备及存储介质,它们是相对应的方案,方案中:在大语言模型推理过程中引入数据聚类与量化机制,当KV缓存的大小超过预设阈值时,首先将KV缓存数据进行聚类划分,再对部分数据进行低精度量化处理,另一部分则通过聚类中心代替,达到减少KV缓存大小的目的。通过本发明的方案,能够显著降低推理过程中的显存占用,提高推理效率,并优化系统资源的利用率。
技术关键词
大语言模型 注意力 优化系统资源 交叉验证方法 概率分布函数 初始聚类中心 策略 启发式算法 均值算法 判别模块 处理器 数据分布 聚类算法 键值 可读存储介质 组织
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号