摘要
本申请公开了一种集群网络控制方法及装置,涉及人工智能技术领域,包括:在集群网络中的各个GPU服务器执行每一轮大模型训练任务的过程中,收集每个GPU服务器中的目标GPU卡与其它GPU服务器中的目标GPU卡进行信息交互时的交互耗时;不同GPU服务器中的目标GPU卡用于执行大模型训练任务的同一子任务;根据收集的目标GPU卡间的交互耗时,确定需进行交互优化的目标GPU卡;提高需进行交互优化的目标GPU卡的网络包的传输优先级,以降低需进行交互优化的目标GPU卡的交互耗时。
技术关键词
GPU服务器
交换机
网络控制方法
集群
网络控制装置
端口
人工智能技术
模块
接收端
标识
周期性
网卡
数据