一种资源受限场景下的大模型推理张量卸载方法及系统

AITNT
正文
推荐专利
一种资源受限场景下的大模型推理张量卸载方法及系统
申请号:CN202511036908
申请日期:2025-07-28
公开号:CN120540744B
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种资源受限场景下的大模型推理张量卸载方法及系统,本发明方法包括为目标算子加载算子语义知识;为目标算子计算单位GPU内存资源可获得的延迟优化效益并归一化处理作为GPU亲和度,并对GPU亲和度降序排列生成初步优先级队列G;为初步优先级队列G中的目标算子引入跨设备张量加载延迟以动态调整算子部署顺序,从而得到最终的优先级队列G';判断最终的优先级队列G'等于初步优先级队列G是否成立,如果不成立则跳转步骤S102继续迭代;否则,基于最终的优先级队列G'生成算子的张量在GPU和CPU之间的分配的放置方案。本发明旨在提升资源受限场景下的大模型推理速度。
技术关键词
卸载方法 队列 资源 受限 内存占用量 场景 跨设备 表达式 微处理器 可读存储介质 卸载系统 计算机程序产品 语义 编程 指令 动态 存储器
系统为您推荐了相关专利信息
1
一种面向资源节约高效利用的建设项目节地优化方法及系统
案例库 加权欧氏距离 模糊隶属函数 规模 层次分析法
2
一种基于内存算力感知的模型剪枝方法、设备及介质
人工智能模型 模型剪枝方法 内存 多模型 精度
3
一种基于云资源池的多维度业务监控系统
通信带宽 业务监控系统 机房 深度神经网络 数据
4
新能源制氢系统优化配置方法
制氢系统 计算机可执行指令 储氢罐 风光 规模
5
面向三维空间动态避障的柔性可重构机器人路径规划方法
障碍物 机器人路径规划方法 面向三维空间 柔性可重构 栅格
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号