面向资源受限环境的大语言模型推理性能优化方法及装置

正文

推荐专利

申请号：CN202510778079

申请日期：2025-06-11

公开号：CN120872575A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种面向资源受限环境的大语言模型推理性能优化方法及装置，本发明在大语言模型推理服务进行逐层推理的过程中，基于资源受限环境中可用资源的情况来动态调整大语言模型推理服务的计算线程和内存资源，采用结合动态内存的流水线加载机制将存储于SSD或PM中的模型参数逐步异步读取加载到内存中，并在系统非高峰使用时段时针对存放在内存中的、用于缓存大语言模型的模型中间计算结果的键值对缓存KV Cache通过主动识别并删除不重要的KV缓存项来释放内存空间。本发明旨在解决在个人设备上高效部署和执行大语言模型时面临的内存限制、资源分配不均以及推理效率低下的问题，优化大模型在受限资源环境下的性能。

技术关键词

面向资源受限环境性能优化方法大语言模型内存标志位流水线参数注意力键值持久性核心性能优化装置条目实时监控系统固态微处理器

系统为您推荐了相关专利信息

数据处理方法、装置、电子设备与可读存储介质

硬件存储装置加密数据内核态数据处理方法内存

一种基于大语言模型的问答方法、装置、介质及设备

大语言模型问答方法意图识别模型关键词问答装置

图像生成方法及装置、图像生成模型训练方法及装置

图像生成模型大语言模型图像生成方法语义向量文本编码器

一种健康指导信息生成方法及装置

健康指导信息疾病特征大语言模型医学参数

基于大语言模型的文本摘要生成方法

文本摘要生成方法大语言模型特征提取模型迭代优化算法多级特征

面向资源受限环境的大语言模型推理性能优化方法及装置

站点导航

APP 下载