摘要
本发明公开了一种面向资源受限环境的大语言模型推理性能优化方法及装置,本发明在大语言模型推理服务进行逐层推理的过程中,基于资源受限环境中可用资源的情况来动态调整大语言模型推理服务的计算线程和内存资源,采用结合动态内存的流水线加载机制将存储于SSD或PM中的模型参数逐步异步读取加载到内存中,并在系统非高峰使用时段时针对存放在内存中的、用于缓存大语言模型的模型中间计算结果的键值对缓存KV Cache通过主动识别并删除不重要的KV缓存项来释放内存空间。本发明旨在解决在个人设备上高效部署和执行大语言模型时面临的内存限制、资源分配不均以及推理效率低下的问题,优化大模型在受限资源环境下的性能。
技术关键词
面向资源受限环境
性能优化方法
大语言模型
内存
标志位
流水线
参数
注意力
键值
持久性
核心
性能优化装置
条目
实时监控系统
固态
微处理器
系统为您推荐了相关专利信息
语音问答方法
大语言模型
深度神经网络
长短期记忆网络
文本
仿真计算方法
仿真系统
操作系统
系统调度器
标志位