摘要
本发明公开一种基于Tensor Core的对角稀疏矩阵‑向量乘积求解方法,属于专用硬件加速器技术领域。所述方法包括:获取BDIA格式的稀疏矩阵;其中,该BDIA格式的稀疏矩阵由对角稀疏矩阵转换得到;准备输入向量与输出向量,并将输入向量、输出向量、BDIA格式的稀疏矩阵转移到GPU全局内存;设置CUDA内核的启动配置;确定每个warp在输出向量中行区段之后,对输入向量和BDIA格式的稀疏矩阵执行划分,得到向量块和矩阵块;通过warp内协作,将矩阵块和所述向量块从全局内存加载对角块到Tensor Core寄存器;每个warp利用Tensor Core寄存器执行矩阵‑向量乘法,得到该warp对应的最终向量结果;将每个warp对应的最终向量结果写入输出向量。本发明可以减少存储和传输量,提升运算速度和能效。
技术关键词
矩阵
格式
计算机程序指令
GCN模型
节点特征
分块
专用硬件加速器
内存
生成训练数据
可读存储介质
内核
精度
电子设备
处理器
网络
能效
存储器
系统为您推荐了相关专利信息
基础数据模型
评价指标体系
零碳
决策分析方法
评价方法
计划编制系统
水电工程施工
BIM模型文件
校验模块
施工机械