摘要
本发明提供基于k8s进行模型训练的方法,涉及模型训练技术领域,包括通过在k8s集群中创建业务队列,将训练任务分配至对应队列,由自定义控制器识别训练阶段特征并采集性能数据,根据特征和数据确定初始批次分配值,并基于实际计算时延持续调整批次分配值,最终更新yaml文件中的资源需求信息,选择满足资源需求的训练节点执行模型训练任务。本发明能够优化资源分配,提高训练效率,降低资源浪费。
技术关键词
敏感度矩阵
队列
节点
阶段
资源
时延
负载特征
指数衰减函数
多维特征向量
计算机程序指令
动态更新
耦合特征
集群
拉格朗日乘子法
模型训练技术
历史性能数据
多层次