摘要
本申请提供一种异构计算中的分布式机器学习方法,包括:获取异构计算环境下的硬件规格与配置信息,并进行硬件故障模式的初步分类;采用数据同步策略,将所有节点的状态数据整合到一个中心节点,形成一个全局状态数据集;对所述全局状态数据集进行解析,动态为各节点分配计算任务;根据动态分配的计算任务和硬件故障模式,设计初步的容错机制;在分布式机器学习环境中,将设计好的容错机制应用到每个节点,记录应用结果;分析应用容错机制后的结果数据,对数据同步策略进行相应的调整;通过网络通讯协议,将所有节点的容错和同步状态信息记录在一个中心节点。
技术关键词
容错机制
分布式机器学习
节点
数据同步
网络通讯协议
异构计算环境
同步状态信息
控制远程访问权限
网络通信协议
负载均衡策略
验证数据完整性
任务调度策略
操作系统信息
IP白名单
网络连接状态
加密算法
资源
系统为您推荐了相关专利信息
储能系统
供电控制模块
分析模块
数据
特征提取模块
能源
优化投标方法
热电联产机组
燃气机组
不确定性模型
环境图像数据
闭环检测方法
语义标签
拓扑图
特征提取模型