摘要
本说明书公开了一种用于异构集群的模型训练方法、装置、介质及设备,分别在异构集群和同构基准集群中,采用统一的训练配置训练目标模型,每隔预设迭代步数,存储在该轮迭代过程中,异构集群的关键指标和同构基准集群的关键指标,针对每次采样,在存储了当前轮次迭代过程的关键指标后,确定存储的所述异构集群的关键指标和所述同构基准集群的关键指标之间的差异,根据所述差异确定是否继续训练该目标模型。通过在基于异构集群的模型训练过程中,按照预设的频率,将采用相同训练配置但基于同构集群的训练的模型与该基于异构集群训练的模型的精度进行对比,从而实时监控模型训练过程,及时发现模型训练过程中的异常情况,提高了训练出的模型的精度。
技术关键词
集群
异构
指标
基准
模型训练方法
曲线
模型训练装置
精度
误差
处理器
采样模块
可读存储介质
报告
存储器
电子设备
计算机
频率