摘要
本申请涉及一种大语言模型的推理服务部署方法、装置、设备和存储介质,涉及人工智能技术领域。所述方法包括:获取大语言模型的参数数量、多个待分配设备各自的显存容量、计算核心数量以及网络信息,并确定多种待分配设备的设备组合,每种设备组合由用于预填充阶段的第一设备和用于解码阶段的第二设备组成;针对每种设备组合,基于参数数量、多个待分配设备各自的显存容量以及单个输入文本单元对应的占位空间,确定文本单元处理能力;基于文本单元处理能力、多个待分配设备各自的计算核心数量,及网络信息,确定当前设备组合下的推理延迟;在多个设备组合中确定推理延迟符合预设延迟条件的目标设备组合。采用本方法能够提高大语言模型推理效率。
技术关键词
分配设备
大语言模型
文本
服务部署方法
核心
解码
键值
阶段
网络
参数
人工智能技术
数据
计算机程序产品
处理器
计算机设备
模块
可读存储介质
存储器
链路
系统为您推荐了相关专利信息
语音识别控制方法
标志
文本
晾衣机
语音识别控制装置
服务辅助系统
语义向量
预训练语言模型
索引表
控制模块