摘要
本申请涉及一种算子流的并行运行方法、计算机设备和可读存储介质。方法包括:将目标算子流划分为多个执行阶段;在目标算子流的运行过程中,针对任一执行阶段,在各人工智能芯片内部采用执行阶段对应的并行策略,执行执行阶段内各算子对应的运算,且在执行阶段运算完成后,基于下一执行阶段对应的并行策略,将每一人工智能芯片在执行阶段的运算结果中的部分或者全部直写入目标人工智能芯片对应的内存资源中,目标人工智能芯片包括每一人工智能芯片自身或者全部人工智能芯片;在各执行阶段均完成计算后,基于各人工智能芯片的最终运算结果得到目标算子流的运算结果。采用本方法能够降低大模型的推理延迟,提高推理效率。
技术关键词
人工智能芯片
阶段
数据并行策略
矩阵
并行运行方法
内存
资源
计算机设备
计算机程序产品
处理器
可读存储介质
存储器
系统为您推荐了相关专利信息
动态贝叶斯网络
机电工程施工
信息管理方法
贝叶斯网络模型
时间片
交通流预测方法
交通状态预测
记忆
特征提取单元
探测器
电工钢片
磁滞特性
饱和磁化强度
方程
龙格库塔法