申威架构上面向CNN的批量矩阵乘并行优化方法及系统

正文

推荐专利

申请号：CN202511020934

申请日期：2025-07-24

公开号：CN120508740B

公开日期：2025-09-23

类型：发明专利

摘要

本发明提出了申威架构上面向CNN的批量矩阵乘并行优化方法及系统，属于人工智能并行优化技术领域；包括：将卷积层中的输入特征图和卷积核分别转换为输入矩阵和权重矩阵，并批量处理为多组独立的矩阵乘法任务；主核将矩阵乘法任务封装为参数结构体数组，通过单次DMA传输至从核，从核根据线程总数和矩阵高度，采用动态行块划分算法将输入矩阵的行划分为行块任务；并对分配的独立行块执行子矩阵乘法计算，采用双缓冲DMA异步预取矩阵子块，执行矩阵乘累加计算。本发明能够提高批量矩阵乘在申威处理器主从核间的并行处理效率，优化算法性能。

技术关键词

并行优化方法矩阵划分算法批量申威架构并行优化技术基础任务调度参数动态局部感受野程序模块缓冲条带内存可读存储介质指令存储器电子设备

系统为您推荐了相关专利信息

公交线网路径的绘制方法和绘制装置及机器可读存储介质

路段绘制方法绘制装置数据机器可读存储介质

一种针对复杂拓扑修形齿面的车齿加工仿真方法

仿真方法切削刃重构模型轮廓识别车齿刀具

一种基于PPP-B2b的定位方法和设备

数学模型定位方法卡尔曼滤波算法矩阵偏差

一种用于评估实习医护人员输液操作的方法及系统

触觉特征信号特征注意力图谱特征跨模态

一种基于语义亲和的伪装目标检测方法

物体位置信息模块上采样语义执行矩阵乘法

申威架构上面向CNN的批量矩阵乘并行优化方法及系统

站点导航

APP 下载