摘要
本公开提供了目标节点筛查方法、装置、电子设备及存储介质,涉及深度学习、分布式存储、智能芯片和算力等人工智能领域。其中的方法可包括:在执行模型训练任务过程中,实时监测训练任务性能;响应于确定训练任务性能下降,且确定下降情况符合筛查触发条件,获取用于执行模型训练任务的集合通信组的集合通信日志信息;根据集合通信日志信息,从集合通信组中确定出导致训练任务性能下降的目标节点。应用本公开所述方案,可及时发现存在问题的目标节点,从而可及时地对问题进行处理,提升训练任务性能等。
技术关键词
图形处理器
日志
节点
指标
筛查方法
筛查装置
电子设备
指令
时间差
智能芯片
计算机程序产品
处理器通信
监测模块
可读存储介质
存储器
通道
条目
数据