摘要
本发明提出了一种大语言模型服务请求调度方法及系统,属于大语言模型与服务计算技术领域;通过构建指令微调数据集对大语言模型进行微调并预测响应文本长度,构建微调后的大语言模型响应时间与响应文本长度之间的关系模型,以得到响应时间近似解;将大语言模型的服务请求进行分批处理并设置分批调度策略;引入误差处理机制,将预测的响应文本长度与大语言模型在接收到服务请求后所输出的响应文本长度进行对比,根据对比结果确定大语言模型的服务响应状态。本发明能够在保证对服务响应时间进行精准预测的基础上,充分利用服务响应过程中的任务特征,以实现对大语言模型服务响应的有效、有序调度。
技术关键词
大语言模型
请求调度方法
文本
策略
服务计算技术
标识符
指令
数据
参数
关系
处理器
调度系统
程序
机制
模块
误差
可读存储介质
基础
存储器
电子设备
系统为您推荐了相关专利信息
隐私保护方法
强化学习策略
服务器
客户端
估计方法
缺陷识别方法
双网络架构
空间特征提取
拓扑结构特征
策略
合并单元格
训练识别模型
信息提取方法
信息提取系统
监测系统