摘要
本申请公开了一种大模型集群部署方法、装置、设备及存储介质,涉及人工智能领域,包括:基于预设量化工具对与部署任务对应的大模型进行并行量化,并对量化后模型进行指标评测,以得到对应的模型评测结果;基于所述模型评测结果确定与所述部署任务对应的待部署模型列表;获取当前与所述部署任务对应的异构集群的计算资源信息与集群运行状态;利用所述计算资源信息、所述集群运行状态、所述待部署模型列表以及动态规划策略确定目标部署方案,并基于所述目标部署方案完成与所述部署任务对应的大模型部署操作。本申请能够有效避免异构集群中出现GPU性能挤占的情况,从而降低部署成本,并提高大模型在异构集群中运行的稳定性。
技术关键词
集群部署方法
字符生成速度
异构
列表
协作模型
容器集群管理系统
指标
集群部署装置
监控组件
规划
策略
图形处理器
动态
中央处理器
时延
可读存储介质
文本
模块
系统为您推荐了相关专利信息
异构传感器网络
巡检机器人
三维语义分割
穿戴式
上下文特征
智能驾驶方法
路侧设备
复杂度
智能驾驶系统
车辆
建立神经网络模型
像素点
标签
CT图像序列
直方图
电子地图界面
三维地形模型
数据搜索方法
关键词
实时位置
数据传递方式
数据适配器
分布式调度系统
退避算法
接口