摘要
本发明公开了一种基于量化的多任务大语言模型服务系统。本系统包括动态多任务量化模块和多任务请求调度模块;其中动态多任务量化模块用来对部署的模型进行初始多任务联合量化并部署,当后续有新任务需要被引入时,该模块也负责对模型进行重量化;请求池用来缓存各种客户端发来的请求,并交予后续的多任务请求调度模块;多任务请求调度模块对多任务的请求进行调度编排;每当多任务请求调度模块给出一组输入,与现有服务系统类似,将该输入送入推理流程进行处理,获得对应输出的预测值并解码,解码得到的词元则会被流式输出、并被返回给调度模块,等待进行下一轮调度。本发明具有更高的可用性、更好的可扩展性和更优秀的用户体验。
技术关键词
多任务
服务系统
大语言模型
队列
线性
误差矩阵
阶段
解码
正则化参数
模块
基座
量化误差
动态
服务器
策略
客户端
聚类
系统为您推荐了相关专利信息
烟草水分检测方法
卷积神经网络模型
输入端
注意力
输出端
检索系统
数据融合方法
信息检索
低成本
线性组合法