面向资源受限环境的大语言模型推理性能优化方法及装置

AITNT
正文
推荐专利
面向资源受限环境的大语言模型推理性能优化方法及装置
申请号:CN202510778079
申请日期:2025-06-11
公开号:CN120872575A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种面向资源受限环境的大语言模型推理性能优化方法及装置,本发明在大语言模型推理服务进行逐层推理的过程中,基于资源受限环境中可用资源的情况来动态调整大语言模型推理服务的计算线程和内存资源,采用结合动态内存的流水线加载机制将存储于SSD或PM中的模型参数逐步异步读取加载到内存中,并在系统非高峰使用时段时针对存放在内存中的、用于缓存大语言模型的模型中间计算结果的键值对缓存KV Cache通过主动识别并删除不重要的KV缓存项来释放内存空间。本发明旨在解决在个人设备上高效部署和执行大语言模型时面临的内存限制、资源分配不均以及推理效率低下的问题,优化大模型在受限资源环境下的性能。
技术关键词
面向资源受限环境 性能优化方法 大语言模型 内存 标志位 流水线 参数 注意力 键值 持久性 核心 性能优化装置 条目 实时监控系统 固态 微处理器
系统为您推荐了相关专利信息
1
基于vhost-user的高性能FPGA异构计算虚拟化方法及系统
虚拟化方法 虚拟机监视器 大页内存 队列 高性能
2
一种基于大语言模型和扩散模型的自动驾驶方法与装置
自动驾驶方法 大语言模型 多视角 图像 轨迹
3
一种高度集成UWB及BLE的SIP封装芯片
封装芯片 射频开关 蓝牙芯片 天线 存储模块
4
基于历史对话信息的大模型语音问答方法
语音问答方法 大语言模型 深度神经网络 长短期记忆网络 文本
5
一种仿真系统的仿真计算方法、装置、设备、产品及介质
仿真计算方法 仿真系统 操作系统 系统调度器 标志位
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号