面向大模型训练的智算集群并行训练性能优化方法

AITNT
正文
推荐专利
面向大模型训练的智算集群并行训练性能优化方法
申请号:CN202511032757
申请日期:2025-07-25
公开号:CN120804914A
公开日期:2025-10-17
类型:发明专利
摘要
本发明公开了面向大模型训练的智算集群并行训练性能优化方法,涉及人工智能计算技术领域,本发明通过实时采集智算集群中异构计算节点的硬件特征指标,构建硬件拓扑图谱,并计算适用于硬件拓扑图谱的最优算力组合,采用自适应路由算法选择最优通信路径,并结合混合精度压缩技术对传输数据进行编解码,实现传输数据的高效传输,基于深度学习算法构建故障预测模型,将硬件监控日志中的实时数据输入故障预测模型中得到预测结果,并根据预设的结果分级标准对预测结果进行分级存储,并基于预测结果训练检查点以实现快速恢复,提升超节点算力利用率,同时可根据网络拥塞状态动态调整通信路径,提升故障恢复速度。
技术关键词
性能优化方法 故障预测模型 检查点 监控日志 集群 人工智能计算技术 NVMe固态硬盘 网络拓扑结构构建 图谱 深度学习算法 堆栈信息 节点 层次聚类算法 分布式对象 BGP协议 时间序列特征 实时数据 编解码 插补算法
系统为您推荐了相关专利信息
1
一种风电集群汇集的共享储能虚拟惯量补偿控制方法
风电机组 虚拟惯量控制 补偿控制方法 动态响应模型 虚拟惯性控制
2
一种网络资源弹性调度方法、系统、设备及介质
智能管控系统 生成资源 传输网 数据网 弹性调度方法
3
一种智能可控的集群算力计算机系统
智能可控 计算机主机 驱动齿条 计算机系统 驱动凹槽
4
基于轨迹智能分析的雷达集群目标行为动态连续识别方法
连续识别方法 集群 雷达 多项式 动态
5
一种基于分布式物联的数字孪生城市数据显示方法、系统
三维渲染引擎 渲染服务器 人流量信息 分布式服务器集群 城市三维建模
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号