摘要
本发明公开了一种资源受限场景下的大模型推理张量卸载方法及系统,本发明方法包括为目标算子加载算子语义知识;为目标算子计算单位GPU内存资源可获得的延迟优化效益并归一化处理作为GPU亲和度,并对GPU亲和度降序排列生成初步优先级队列G;为初步优先级队列G中的目标算子引入跨设备张量加载延迟以动态调整算子部署顺序,从而得到最终的优先级队列G';判断最终的优先级队列G'等于初步优先级队列G是否成立,如果不成立则跳转步骤S102继续迭代;否则,基于最终的优先级队列G'生成算子的张量在GPU和CPU之间的分配的放置方案。本发明旨在提升资源受限场景下的大模型推理速度。
技术关键词
卸载方法
队列
资源
受限
内存占用量
场景
跨设备
表达式
微处理器
可读存储介质
卸载系统
计算机程序产品
语义
编程
指令
动态
存储器
系统为您推荐了相关专利信息
案例库
加权欧氏距离
模糊隶属函数
规模
层次分析法
障碍物
机器人路径规划方法
面向三维空间
柔性可重构
栅格