摘要
本发明公开了面向大模型训练的智算集群并行训练性能优化方法,涉及人工智能计算技术领域,本发明通过实时采集智算集群中异构计算节点的硬件特征指标,构建硬件拓扑图谱,并计算适用于硬件拓扑图谱的最优算力组合,采用自适应路由算法选择最优通信路径,并结合混合精度压缩技术对传输数据进行编解码,实现传输数据的高效传输,基于深度学习算法构建故障预测模型,将硬件监控日志中的实时数据输入故障预测模型中得到预测结果,并根据预设的结果分级标准对预测结果进行分级存储,并基于预测结果训练检查点以实现快速恢复,提升超节点算力利用率,同时可根据网络拥塞状态动态调整通信路径,提升故障恢复速度。
技术关键词
性能优化方法
故障预测模型
检查点
监控日志
集群
人工智能计算技术
NVMe固态硬盘
网络拓扑结构构建
图谱
深度学习算法
堆栈信息
节点
层次聚类算法
分布式对象
BGP协议
时间序列特征
实时数据
编解码
插补算法
系统为您推荐了相关专利信息
风电机组
虚拟惯量控制
补偿控制方法
动态响应模型
虚拟惯性控制
智能管控系统
生成资源
传输网
数据网
弹性调度方法
智能可控
计算机主机
驱动齿条
计算机系统
驱动凹槽
三维渲染引擎
渲染服务器
人流量信息
分布式服务器集群
城市三维建模