摘要
本申请公开了一种模型部署方法、装置、设备、存储介质和产品,涉及多元异构计算系统技术领域,依据混合专家模型的分布式推理任务信息以及异构计算系统的性能信息,确定出每个专家模型在其对应的异构计算节点上执行推理任务的总耗时。基于负载均衡原则,对所有专家模型的总耗时、通信耗时和计算耗时进行分析,以确定出压缩倍率;按照模型压缩策略对各专家模型进行迭代压缩,以得到满足误差要求以及满足压缩倍率要求的各压缩后的专家模型。将各压缩后的专家模型部署在对应的异构计算节点。通过对专家模型进行压缩,并且基于压缩倍率确定专家模型的压缩程度,从而使不同异构算力在专家运算层的计算耗时尽量均衡,提升了硬件资源的利用率。
技术关键词
模型部署方法
异构计算系统
模型压缩
节点
误差
压缩单元
时延
执行乘法
可读存储介质
存储计算机程序
策略
尺寸
计算机程序产品
处理器
网络结构
关系
电子设备
存储器
系统为您推荐了相关专利信息
群组密钥管理方法
终端设备
身份认证信息
逻辑
业务系统
虚拟机集合
主节点
虚拟机备份方法
管理服务器
故障告警信息
可信交易方法
负荷预测模型
分布式资源
属性基加密
功率
预测控制算法
历史运行数据
风机发电功率
灰狼算法
发电机结构
受力检测方法
六维力传感器
力矩
机器人足部
识别步态