摘要
本公开涉及一种大语言模型的服务请求调度方法、介质、设备及程序产品,涉及机器学习技术领域,在该方法中,大语言模型服务包括不同序列长度区间对应的子模型服务,且各子模型服务中部署有不同数量的大语言模型,以使各子模型服务能够同时处理完输入子模型服务的服务请求,通过确定向大语言模型服务发送的服务请求所属的目标序列长度区间,根据目标序列长度区间,将服务请求调度至大语言模型服务中与目标序列长度区间相匹配的子模型服务中,不仅可以确保不同序列长度区间的服务请求能够具有与其序列长度区间相同的模型服务进行处理,而且也能够保证大语言模型服务的资源能够得到有效利用,提升了大语言模型服务对于服务请求的吞吐量。
技术关键词
大语言模型
序列
请求调度方法
机器学习技术
存储装置
计算机程序产品
调度装置
中间件
介质
周期性
电子设备
模块
处理器
资源