摘要
本公开涉及一种用于具有多种处理单元的大语言模型推理系统的调度方法及设备,包括:获取用户的推理请求,推理请求包括用户输入的文本;利用分类模型,按照文本的内容对推理请求进行分类,以在预设的至少一个请求类别中确定推理请求所属的请求类别;获取多种处理单元中的每种处理单元针对请求类别的调度分数,其中,每种处理单元针对请求类别的调度分数基于该种处理单元针对请求类别的满意度得分;基于多种处理单元中的每种处理单元针对请求类别的调度分数,将推理请求调度给多种处理单元中的一种处理单元。通过本公开,能够根据推理请求所属的请求类别来将推理请求动态地调度给不同种类的处理单元,以期为用户提供满意度和性价比更高的推理服务。
技术关键词
处理单元
推理系统
非易失性计算机可读存储介质
时间段
文本
资源
处理器
动态地
存储器
电子设备
比率
系统为您推荐了相关专利信息
智控系统
智控方法
协议管理器
视频帧特征
机器人
图形处理单元
性能测试方法
综合性
测试GPU性能
性能测试装置
穿线机器人
光纤管道
穿线方法
动力轮
弧形支撑架
天然气发动机
模糊集合
瞬态工况
低负荷工况
放气阀