摘要
本发明公开了一种异构计算系统及其模型训练方法、设备、介质、程序产品,应用于人工智能技术领域。其中,系统包括第一处理器、第二处理器、内存扩展设备,第二处理器和内存扩展设备均连接至第一处理器;第一处理器统一管理第二处理器及内存扩展设备,第一处理器和第二处理器的计算能力类型不同,第二处理器、内存扩展设备均支持内存扩展技术,第一处理器、第二处理器和内存扩展设备之间的数据共享;第一处理器将目标网络模型的训练任务卸载至第二处理器和内存扩展设备,并使用内存扩展设备进行容错检查点的存储操作,第二处理器和内存扩展设备并行执行任务。本发明可以解决模型训练过程存在的内存瓶颈问题,可以有效提升模型训练效率。
技术关键词
扩展设备
异构计算系统
模型训练方法
内存扩展技术
处理器
检查点
密集特征
标志
稀疏特征
非易失性存储介质
数值
数据存储
交换机设备
矩阵
快照
缓存一致性协议
网络模型训练
系统为您推荐了相关专利信息
图像去雾方法
去雾图像
训练图像数据
深度学习模型
采样模块
算力调度方法
HTTP请求
命令
调度设备
可读存储介质
深度学习模型
排放量
深度学习方法
标签
人工智能机器人
代码摘要生成方法
网络
交叉注意力机制
解码器处
生成代码