摘要
本发明公开一种基于自动拓扑发现的AI智算中心管理方法、装置及系统,方法包括:周期性通过网络拓扑协议收集网络邻居信息,根据收集的网络邻居信息自动构建和维护AI智算中心的物理网络拓扑;在接收到大模型相关的任务时,结合当前的物理网络拓扑,自动生成最优的在网计算拓扑树;根据在网计算拓扑树将所述任务分解,并将分解的子任务下发到设备节点;其中,通过远程调用接口进行远程过程调用,实现设备节点的状态采集、命令下发、任务调度;在设备节点执行子任务过程中,对任务进行全生命周期管理,包括任务启动、监控、异常恢复、结果收集。本发明实现了异构网络环境下高效、可靠、自适应的网络资源管理。
技术关键词
物理网络拓扑
远程调用接口
全生命周期管理
管理方法
GPU服务器
任务调度
节点
中央控制器
周期性
中心管理系统
异构网络环境
网络资源管理
任务分配策略
SNMP协议
邻居
命令
交换机
生成算法