摘要
本发明提供基于k8s进行模型训练的方法,涉及模型训练技术领域,包括通过在k8s集群中创建业务队列,将训练任务分配至对应队列,由自定义控制器识别训练阶段特征并采集性能数据,根据特征和数据确定初始批次分配值,并基于实际计算时延持续调整批次分配值,最终更新yaml文件中的资源需求信息,选择满足资源需求的训练节点执行模型训练任务。本发明能够优化资源分配,提高训练效率,降低资源浪费。
技术关键词
敏感度矩阵
队列
节点
阶段
资源
时延
负载特征
指数衰减函数
多维特征向量
计算机程序指令
动态更新
耦合特征
集群
拉格朗日乘子法
模型训练技术
历史性能数据
多层次
系统为您推荐了相关专利信息
冗余控制方法
冗余控制系统
多通道
仿真建模
训练集数据
负载监测单元
数据收集模块
云服务管理系统
资源
故障检测单元
芯片验证
链路
生成方法
生成系统
可执行程序代码