摘要
一种分布式AI训练任务的处理方法及系统,涉及云计算技术领域。该分布式AI训练任务的处理方法包括:分别为各云平台每个集群的节点的硬件资源设置标签,并获取每个硬件资源的资源信息;通过集群中预先部署的webhook服务,拦截包含硬件资源数量请求的CRD配置文件,并根据上述标签将上述CRD配置文件中的资源信息修改为该集群硬件环境适配的参数格式后,创建携带该硬件资源数量请求的AI训练任务。本申请不仅可实现多云平台异构资源中硬件资源能被统一调度和使用,不用人工干预,且经由部署在集群中的webhook服务可完成硬件资源配置的动态参数适配和自动注入,实现跨云平台、跨硬件架构的无缝资源调度与适配。
技术关键词
集群
节点
跨硬件架构
构建容器镜像
硬件资源配置
标签
跨云平台
多云平台
云计算技术
格式
参数
链路
队列
动态
异构
模块
系统为您推荐了相关专利信息
K8s集群
虚拟机实例
控制面节点
数据处理方法
对象