摘要
本申请涉及基于分布式的自适应智算资源调度管理系统,涉及AI智能模型训练领域,该系统包括:系统界面模块、资源调度模块、监控模块以及训练模块,其中,系统界面显示模块:用于管理系统,发送AI训练任务的创建指令,资源调度模块:响应创建指令,并对创建好的AI训练任务进行初始资源分配,接收监控模块传输的当前资源信息,并基于当前资源信息调整当前资源分配方案,监控模块:用于监控并获取当前资源信息,训练模块:执行AI训练任务,并计算当前AI训练任务中每个pod的GOODPUT值,基于GOODPUT值调整自身在训练AI训练任务时的批量大小参数以及学习率参数。本申请达到了训练任务的效率优化的效果。
技术关键词
资源调度管理系统
资源分配
监控模块
批量
分析器
参数
节点
系统吞吐量
可读存储介质
界面
智能模型
指令
协方差矩阵
收集系统
数据
策略
系统为您推荐了相关专利信息
防火预警系统
数据采集模块
数据分析模块
电源柜
DQN算法
卫星遥感影像
专家知识库
样本
视觉
向量空间模型
资源分配优化方法
基站
李雅普诺夫优化
可重构智能表面辅助
信道
数据库管理系统
访问控制策略
访问控制方法
数据库管理员
标签