一种资源受限场景下的大模型推理张量卸载方法及系统

正文

推荐专利

申请号：CN202511036908

申请日期：2025-07-28

公开号：CN120540744B

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种资源受限场景下的大模型推理张量卸载方法及系统，本发明方法包括为目标算子加载算子语义知识；为目标算子计算单位GPU内存资源可获得的延迟优化效益并归一化处理作为GPU亲和度，并对GPU亲和度降序排列生成初步优先级队列G；为初步优先级队列G中的目标算子引入跨设备张量加载延迟以动态调整算子部署顺序，从而得到最终的优先级队列G'；判断最终的优先级队列G'等于初步优先级队列G是否成立，如果不成立则跳转步骤S102继续迭代；否则，基于最终的优先级队列G'生成算子的张量在GPU和CPU之间的分配的放置方案。本发明旨在提升资源受限场景下的大模型推理速度。

技术关键词

卸载方法队列资源受限内存占用量场景跨设备表达式微处理器可读存储介质卸载系统计算机程序产品语义编程指令动态存储器

系统为您推荐了相关专利信息

一种面向资源节约高效利用的建设项目节地优化方法及系统

案例库加权欧氏距离模糊隶属函数规模层次分析法

一种基于内存算力感知的模型剪枝方法、设备及介质

人工智能模型模型剪枝方法内存多模型精度

一种基于云资源池的多维度业务监控系统

通信带宽业务监控系统机房深度神经网络数据

新能源制氢系统优化配置方法

制氢系统计算机可执行指令储氢罐风光规模

面向三维空间动态避障的柔性可重构机器人路径规划方法

障碍物机器人路径规划方法面向三维空间柔性可重构栅格

一种资源受限场景下的大模型推理张量卸载方法及系统

站点导航

APP 下载