摘要
本说明书提供了一种用于大语言模型推理的显存管理方法、设备、介质和产品,应用于部署有大语言模型的服务设备;所述方法包括:对所述服务设备上的物理显存资源进行分配,以分别映射至缓存对象为键值缓存的第一显存资源池和缓存对象为中间激活值的第二显存资源池;针对提交至所述大语言模型的推理任务,若判定所述第一显存资源池与所述第二显存资源池中任一显存资源池的空闲显存资源不足以为所述推理任务缓存相应的缓存对象,则将另一显存资源池的至少一部分空闲显存资源临时借调至所述任一显存资源池。
技术关键词
显存管理方法
大语言模型
服务设备
对象
物理
阶段
键值
资源分配
处理器
解码
指令
计算机程序产品
逻辑
可读存储介质
场景
电子设备
存储器
系统为您推荐了相关专利信息
动态背景
机械臂末端执行器
视野
视频帧
DBSCAN算法