用于大语言模型推理的显存管理方法、设备、介质和产品

AITNT
正文
推荐专利
用于大语言模型推理的显存管理方法、设备、介质和产品
申请号:CN202411442369
申请日期:2024-10-15
公开号:CN119443173A
公开日期:2025-02-14
类型:发明专利
摘要
本说明书提供了一种用于大语言模型推理的显存管理方法、设备、介质和产品,应用于部署有大语言模型的服务设备;所述方法包括:对所述服务设备上的物理显存资源进行分配,以分别映射至缓存对象为键值缓存的第一显存资源池和缓存对象为中间激活值的第二显存资源池;针对提交至所述大语言模型的推理任务,若判定所述第一显存资源池与所述第二显存资源池中任一显存资源池的空闲显存资源不足以为所述推理任务缓存相应的缓存对象,则将另一显存资源池的至少一部分空闲显存资源临时借调至所述任一显存资源池。
技术关键词
显存管理方法 大语言模型 服务设备 对象 物理 阶段 键值 资源分配 处理器 解码 指令 计算机程序产品 逻辑 可读存储介质 场景 电子设备 存储器
系统为您推荐了相关专利信息
1
一种面向动态背景环境的机械臂长视野复合任务分解方法
动态背景 机械臂末端执行器 视野 视频帧 DBSCAN算法
2
轻量级物理约束时序信道模型确定方法、应用方法及装置
语义标签 时序 信道冲激响应 多径参数 物理
3
一种基于大模型微调的企业ip聊天系统构建方法
聊天系统 大语言模型 数据 生成企业 参数
4
一种金属产品淬火处理过程监测系统及方法
编码向量 时序特征 淬火介质 金属产品 队列
5
辅助编程信息的生成方法、装置及设备
序列 编程 仿真系统 大语言模型 图片
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号