摘要
本发明公开了一种大语言模型系统及其请求响应方法,涉及大语言模型技术领域。该方法的具体实施方式包括:大语言模型系统包括预填充实例和解码实例,其中,预填充实例和解码实例分别部署于第一硬件和第二硬件上,第一硬件包括至少一个第一处理器,第二硬件包括至少一个第二处理器;第一处理器的算力和第一处理器的总数量根据预填充实例的负载特性确定,第二处理器的算力和第二处理器的总数量根据解码实例的负载特性确定,其中,第一处理器的总算力高于第二处理器的总算力。该实施方式实现了硬件资源的灵活配置以及对硬件资源的充分利用,降低了硬件成本。
技术关键词
处理器
大语言模型
解码
请求响应方法
神经网络处理单元
生成回复信息
图像处理单元
参数
矩阵
计算机程序产品
精度
存储装置
电子设备
介质
资源
系统为您推荐了相关专利信息
车辆控制方法
非易失性存储介质
自动驾驶系统
自动驾驶功能
视觉
强化学习模型
温度控制方法
温度调节系统
历史运行数据
离线
手语
生成方法
双曲正切函数
序列
计算机视觉技术技术
XGBoost算法
重要性排序方法
Logistic回归模型
变量
功能磁共振成像