一种大模型键值缓存量化超参数选择方法及系统

AITNT
正文
推荐专利
一种大模型键值缓存量化超参数选择方法及系统
申请号:CN202411541171
申请日期:2024-10-31
公开号:CN119623584A
公开日期:2025-03-14
类型:发明专利
摘要
本发明公开一种大模型键值缓存量化超参数选择方法及系统,属于大模型技术领域。所述方法包括:获取大模型的内存瓶颈或大模型的延迟瓶颈;在内存瓶颈或延迟瓶颈下,计算各键值缓存量化超参数组所能共同达到的最大batch_size;在该最大batch_size下使用一键值缓存量化超参数组进行大模型推理,获取该键值缓存量化超参数组对应的性能与精度的点;基于所有性能与精度的点,生成该大模型所对应的帕累托曲线;根据大模型的应用场景在帕累托曲线上选择键值缓存量化超参数组。本发明可以更轻易地使大模型达到更高的吞吐量。
技术关键词
超参数 键值 瓶颈 计算机程序指令 内存 精度 曲线 电商推荐系统 遍历算法 客户服务系统 智能客服系统 场景 演化算法 可读存储介质 互动系统 语音助手 电子设备 遗传算法 摘要 处理器
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号