用于大语言模型推理的显存管理方法、设备、介质和产品

正文

推荐专利

申请号：CN202411442369

申请日期：2024-10-15

公开号：CN119443173A

公开日期：2025-02-14

类型：发明专利

摘要

本说明书提供了一种用于大语言模型推理的显存管理方法、设备、介质和产品，应用于部署有大语言模型的服务设备；所述方法包括：对所述服务设备上的物理显存资源进行分配，以分别映射至缓存对象为键值缓存的第一显存资源池和缓存对象为中间激活值的第二显存资源池；针对提交至所述大语言模型的推理任务，若判定所述第一显存资源池与所述第二显存资源池中任一显存资源池的空闲显存资源不足以为所述推理任务缓存相应的缓存对象，则将另一显存资源池的至少一部分空闲显存资源临时借调至所述任一显存资源池。

技术关键词

显存管理方法大语言模型服务设备对象物理阶段键值资源分配处理器解码指令计算机程序产品逻辑可读存储介质场景电子设备存储器

系统为您推荐了相关专利信息

一种面向动态背景环境的机械臂长视野复合任务分解方法

动态背景机械臂末端执行器视野视频帧 DBSCAN算法

轻量级物理约束时序信道模型确定方法、应用方法及装置

语义标签时序信道冲激响应多径参数物理

一种基于大模型微调的企业ip聊天系统构建方法

聊天系统大语言模型数据生成企业参数

一种金属产品淬火处理过程监测系统及方法

编码向量时序特征淬火介质金属产品队列

辅助编程信息的生成方法、装置及设备

序列编程仿真系统大语言模型图片

用于大语言模型推理的显存管理方法、设备、介质和产品

站点导航

APP 下载