摘要
本发明涉及高性能计算技术领域,提供了一种提高GPU中矩阵乘计算效率的方法和装置。本发明按照第一访问顺序从一级缓存单元、二级缓存单元、三级缓存单元和内存中确定存储单元,进而获取第一输入数据以完成第一计算任务;按照第二访问顺序从所述三级缓存单元和所述内存中确定存储单元,进而获取第二输入数据以完成第二计算任务;本发明可以在同一时间段内同时处理第一计算任务和第二计算任务,且可以共用三级缓存单元,减少了两级缓存的延时及相应的指令调度耗时,能够使用GPU代替AI芯片,普适性强,解决了现有技术的AI芯片方案难以满足AI模型快速增长的算力需求的问题。
技术关键词
数据
存储单元
主控器
内存管理单元
桥接器
计算机可执行指令
矩阵
高性能计算技术
管理器
处理器
计算机存储介质
固件
模式
调度器
模块
芯片
时间段