摘要
本发明公开了一种基于近存计算架构的大模型编译方法和装置,应用于智能设备,智能设备包括部署的单芯片单元,每个芯片单元包含多个tile;所述单芯片单元的编译方法包括:在算子的编译阶段,将大模型拆分的算子权重参数的维度N按芯片单元内tile的数量进行拆分;对算子的输入与输出tensor的shape同时进行约束;将算子的输入张量在各相邻tile之间进行轮询传递;在完成芯片单元内所有tile上的并行计算后,获取每个tile上算子的输出结果;再将所有tile的输出结果沿着tile_num这个维度进行合并;最后通过芯片单元内数据排布规则转换输出;其有益效果是:显著提升算子计算效率,加速大模型的推理过程。
技术关键词
模型编译方法
智能设备
编译装置
分配单元
阶段
参数
逻辑
存储单元
芯片架构
模块
数据
流水线
连续性
布局
关系
冗余
动态
网络