摘要
本发明公开了一种面向资源受限环境的大语言模型推理性能优化方法及装置,本发明在大语言模型推理服务进行逐层推理的过程中,基于资源受限环境中可用资源的情况来动态调整大语言模型推理服务的计算线程和内存资源,采用结合动态内存的流水线加载机制将存储于SSD或PM中的模型参数逐步异步读取加载到内存中,并在系统非高峰使用时段时针对存放在内存中的、用于缓存大语言模型的模型中间计算结果的键值对缓存KV Cache通过主动识别并删除不重要的KV缓存项来释放内存空间。本发明旨在解决在个人设备上高效部署和执行大语言模型时面临的内存限制、资源分配不均以及推理效率低下的问题,优化大模型在受限资源环境下的性能。
技术关键词
面向资源受限环境
性能优化方法
大语言模型
内存
标志位
流水线
参数
注意力
键值
持久性
核心
性能优化装置
条目
实时监控系统
固态
微处理器
系统为您推荐了相关专利信息
硬件存储装置
加密数据
内核态
数据处理方法
内存
大语言模型
问答方法
意图识别模型
关键词
问答装置
图像生成模型
大语言模型
图像生成方法
语义向量
文本编码器
文本摘要生成方法
大语言模型
特征提取模型
迭代优化算法
多级特征