摘要
本申请涉及GPU并行处理技术领域,特别是涉及一种用于矩阵计算的多线程并行计算系统,系统包括:GPU、处理器和存储有计算机程序的存储器,当计算机程序被处理器执行时,实现以下步骤:第二矩阵B中的各个第二向量直接发送给对应的计算子模块,第一矩阵A中的行向量分发给计算子模块,从而在计算子模块中形成第一向量,在第一向量和第二向量计算完成后再进行叠加即可直接得到矩阵相乘结果,相较于现有方法,无需将需要计算的矩阵存储于并行计算模块的本地存储中,也无需再从本地存储中进行矩阵元素的读取,极大地减少了计算单元的数据准备时间,从而提高矩阵计算的效率。
技术关键词
多线程并行计算
矩阵
子模块
存储单元
GPU并行处理技术
元素
执行乘法
处理器
存储器
尺寸
逻辑
周期
数据
系统为您推荐了相关专利信息
超声清洗方法
涡轮增压器
船舶设备
超声清洗机
扩展现实技术
软件可靠性评估
卡尔曼滤波技术
状态更新
预测误差
数据
数据推送方法
随机森林模型
平台
代表
计算机程序指令