摘要
本公开提供了一种模型训练方法、装置、电子设备、存储介质及程序产品,涉及人工智能技术领域。该方法包括:获取模型训练任务以及模型训练任务对应的模型结构特征;获取当前资源状态;将模型训练任务分成多个子任务;基于模型训练任务、模型结构特征以及当前资源状态选取目标资源调度策略;基于目标资源调度策略将子任务分配至对应的计算节点,计算节点用于执行对应的子任务。本实施例基于模型训练任务、模型结构特征以及当前资源状态选取目标资源调度策略,利用目标资源调度策略将子任务高效分配至计算节点,提升分布式训练效率与资源利用率。
技术关键词
模型训练方法
资源调度策略
节点
复杂度
服务等级协议
模型训练装置
分布式训练
电子设备
处理器
人工智能技术
计算机程序产品
队列
模块
周期
指令
可读存储介质
数值