摘要
本公开涉及一种大语言模型的请求处理方法、装置、介质、设备及产品,涉及机器学习技术领域,该方法通过获取发送至大语言模型的服务请求,并通过部署于第一图形处理器的大语言模型,对服务请求进行预填充处理,获得服务请求对应的预填充结果,并将预填充结果发送至第二图形处理器,以及通过部署于第二图形处理器的大语言模型,对预填充结果进行解码处理,获得服务请求对应的推理结果,可以将大语言模型的预填充阶段与解码阶段进行解耦,从而提高GPU资源的利用率以及提高大语言模型的服务吞吐量。
技术关键词
图形处理器
大语言模型
解码
调度器
机器学习技术
存储装置
电子设备
计算机程序产品
客户端
介质
阶段
模块
资源
系统为您推荐了相关专利信息
大语言模型
答案
惩罚策略
非暂态计算机可读存储介质
生成工具
不确定性量化方法
协方差矩阵
包络
激光雷达传感器
解码器
场景构建方法
稀疏特征
图像特征识别
解码模型
多尺度特征
关联规则挖掘算法
手机系统
资源分配策略
视频编码码率
参数