摘要
本发明提出一种基于预分配锁内存的计算卡群并行推理方法和装置,包括:构建由多张智能计算卡构成的智能计算卡群;获取推理请求,推理请求包含待推理的模型参数、输入数据以及其他的请求元数据信息;在每张智能计算卡的内存区域内划分锁内存区域;根据当前智能计算卡的空闲显存,在隐藏维度上切分输入数据,得到多个子张量;每个智能计算卡执行分配到的子张量的推理任务,然后各加速卡协同完成推理任务,各加速卡将得到的推理结果作为中间结果保存至本地的锁内存区域;当智能计算卡群完成全部子张量的推理任务后,按照正确的顺序进行合并所有智能计算卡的锁内存区域中的中间结果,得到推理请求的推理结果。
技术关键词
并行推理方法
加速卡
内存
推理装置
信息显示设备
人工智能模型
参数
数据
计算机程序产品
分发模块
电子设备
资源
可读存储介质
处理器
动态
客户端
系统为您推荐了相关专利信息
GPU计算方法
关系
大规模非结构
高性能并行计算
索引
接入管理系统
机器学习模型
异构
阈值机制
资源监控
电气控制柜
生成方法
神经网络模型
数据库缓存技术
关键词
气压传感器
金属外壳
单片机
开盖检测系统
存储器