一种基于异构集群的模型训练方法、装置及电子设备

AITNT
正文
推荐专利
一种基于异构集群的模型训练方法、装置及电子设备
申请号:CN202410867441
申请日期:2024-06-28
公开号:CN118862984A
公开日期:2024-10-29
类型:发明专利
摘要
本申请提供一种基于异构集群的模型训练方法、装置及电子设备,获得异构集群的各GPU的算力资源及GPU拓扑结构图;接收到待执行训练任务后选择算力资源满足待执行训练任务所需的算力资源的备选池作为预选池,从预选池中选择算力评估值满足预设要求的调度池以利用调度池的各GPU完成训练任务。预选池的算力评估值基于预选池的负载均衡度、资源碎片率及拓扑结构得分确定,负载均衡度及资源碎片率基于预选池中的GPU的算力资源确定,拓扑结构得分基于预选池的拓扑结构中各GPU间的传输路径的长度确定。利用算力资源衡量GPU的算力能力,结合负载均衡度、资源碎片率及预选池的拓扑结构选择调度池完成训练任务,充分发挥异构集群的能力。
技术关键词
异构 集群 监控指标数据 资源 模型训练方法 计算机程序指令 模型训练装置 传输路径 电子设备 模型训练模块 处理器 可读存储介质 备份 存储器
系统为您推荐了相关专利信息
1
流量检测模型训练方法、流量检测方法及装置
数据 编码向量 检测模型训练方法 训练流量检测模型 流量检测方法
2
一种AI深度智能学习测评管理控制方法及一体机
管理控制方法 异常数据点 管理策略 核心 学科知识图谱
3
基于反馈机制的KVM故障预测方法、系统、介质及设备
资源调度模型 资源调度策略 故障预测模型 故障预测方法 优化调度策略
4
一种面向物联网云边协同的个性化联邦学习方法
客户端 联邦学习方法 滑动窗口 持续学习方法 深度神经网络模型
5
服务平台的资源量处理方法及电子设备
支持向量机模型 资源 样本 多项式核函数 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号