摘要
本发明提供一种大语言模型的边缘部署方法,包括:S1、获取大语言模型的子层参数,包括多层子层、各个子层的存储需求量和输出数据量;S2、获取边缘计算集群所含多个边缘设备的设备信息,其包括各个设备的存储空间和带宽;S3、获取基于设备信息预设的约束条件,采用流水线并行的部署方式,根据子层参数和约束条件将多层子层分配到各个设备中,得到部署方案,其包括为各个设备分配的一层或连续的多层子层,并以最小化集群中的并行处理延迟为优化目标,迭代调整部署方案;S4、根据S3调整后的部署方案,将多层子层部署到各个设备中。本发明预设约束条件,以最小化并行处理延迟来调整部署方案,解决传统方法不适用部署大语言模型、计算效率低的问题。
技术关键词
大语言模型
动态规划算法
集群
贪心算法
流水线
校正
参数
处理器
可读存储介质
存储器
电子设备
指令
变量
计算机
数据
系统为您推荐了相关专利信息
运营调度方法
场景
因子
可读存储介质
大语言模型
加速卡
数据交互通道
服务器集群
端口
人工智能服务器