摘要
本发明公开了一种适用于大模型加速芯片的静态图分布式推理系统及方法,该系统包括分布式编译框架子系统,用于:将大模型的权重和算子转换到自定义npu_lm;对大模型做量化处理,并保存量化系数;按张量并行拆分模型和量化系数,再按子图进一步拆分;循环对所有子图编译,并进行编译信息保存;分布式推理框架子系统,用于:通过分布式调度器负责把编译后的子图分到多个加速芯片上;对单加速芯片进行地址划分;根据划分好的地址进行模型加载,并结合多请求调度器进行分布式推理;其有益效果是:本发明具备良好的动态扩展性,同时兼顾性能。
技术关键词
分布式推理方法
分布式调度器
推理系统
生成可执行文件
芯片
子系统
框架
流水线
内存
精度
动态
指令