摘要
本发明提出了申威架构上面向CNN的批量矩阵乘并行优化方法及系统,属于人工智能并行优化技术领域;包括:将卷积层中的输入特征图和卷积核分别转换为输入矩阵和权重矩阵,并批量处理为多组独立的矩阵乘法任务;主核将矩阵乘法任务封装为参数结构体数组,通过单次DMA传输至从核,从核根据线程总数和矩阵高度,采用动态行块划分算法将输入矩阵的行划分为行块任务;并对分配的独立行块执行子矩阵乘法计算,采用双缓冲DMA异步预取矩阵子块,执行矩阵乘累加计算。本发明能够提高批量矩阵乘在申威处理器主从核间的并行处理效率,优化算法性能。
技术关键词
并行优化方法
矩阵
划分算法
批量
申威架构
并行优化技术
基础
任务调度
参数
动态
局部感受野
程序
模块
缓冲
条带
内存
可读存储介质
指令
存储器
电子设备