摘要
本申请公开了用于大模型训练的拓扑文件生成方法、装置、设备及介质,涉及云计算技术领域,包括:利用预先部署的目标控制器组件对kubernetes集群中资源的变化进行监听;若kubernetes集群中创建新的目标资源,则通过目标控制器组件解析新的目标资源中的图形处理器拓扑信息,以获取物理节点与图形处理器拓扑信息的映射关系;若集群中创建新的Pod资源,且新的Pod资源中包含图形处理器资源信息,则通过目标控制器组件修改新Pod的定义,以生成相应的初始化容器;基于请求参数以及映射关系利用初始化容器访问目标控制器组件,以获取用于大模型训练的目标物理节点的NCCL拓扑文件。由此提升了图形处理器间的通信效率。
技术关键词
控制器组件
图形处理器
文件生成方法
集群
节点
应用程序编程接口
物理
扩展标记语言文件
容器
资源管理对象
可扩展标记语言
文件生成装置
参数
关系
可读存储介质
云计算技术
存储计算机程序
系统为您推荐了相关专利信息
数字孪生
栅格
混合智能优化算法
运输智能
资源供应
异性纤维分检系统
数据采集装置
棉花原料
追溯功能
异纤机