摘要
本发明公开了一种基于高性能算力的大模型智能调度方法及系统,具体构建了智能调度模型。初始化主机和GPU板卡信息,通过GPU资源管理组件定期采集主机负载相关指标和GPU负载相关指标。模型所有者将模型名称、模型启动和运行参数、模型所需GPU资源等信息注册至模型管理组件。获取用户模型使用诉求,包括模型名称及启动模式。通过模型适配度评价体系,对各GPU服务器、单机多卡组合方案进行过滤、打分,获取最佳调度方案。依据调度方案对模型进行调度部署。有效解决了大模型进行单机多卡分布式训练、分布式推理时,模型开发工程师在不了解板卡信息的情况下人工指定、随机选卡,导致的训练、推理效果次优的问题,提升了模型开发推理的效率,降低了运行成本。
技术关键词
智能调度方法
多卡组合
高性能
GPU板卡
指标
智能调度模型
资源管理组件
主机
打分算法
板卡信息
服务器硬件资源
GPU服务器
智能调度系统
分布式训练
模式
采集组件
表达式
模块