大语言模型的服务请求调度方法、介质、设备及程序产品

正文

推荐专利

申请号：CN202411018503

申请日期：2024-07-26

公开号：CN118842836A

公开日期：2024-10-25

类型：发明专利

摘要

本公开涉及一种大语言模型的服务请求调度方法、介质、设备及程序产品，涉及机器学习技术领域，在该方法中，大语言模型服务包括不同序列长度区间对应的子模型服务，且各子模型服务中部署有不同数量的大语言模型，以使各子模型服务能够同时处理完输入子模型服务的服务请求，通过确定向大语言模型服务发送的服务请求所属的目标序列长度区间，根据目标序列长度区间，将服务请求调度至大语言模型服务中与目标序列长度区间相匹配的子模型服务中，不仅可以确保不同序列长度区间的服务请求能够具有与其序列长度区间相同的模型服务进行处理，而且也能够保证大语言模型服务的资源能够得到有效利用，提升了大语言模型服务对于服务请求的吞吐量。

技术关键词

大语言模型序列请求调度方法机器学习技术存储装置计算机程序产品调度装置中间件介质周期性电子设备模块处理器资源

大语言模型的服务请求调度方法、介质、设备及程序产品

站点导航

APP 下载