一种基于量化的多任务大语言模型服务系统

AITNT
正文
推荐专利
一种基于量化的多任务大语言模型服务系统
申请号:CN202411520260
申请日期:2024-10-29
公开号:CN119576488A
公开日期:2025-03-07
类型:发明专利
摘要
本发明公开了一种基于量化的多任务大语言模型服务系统。本系统包括动态多任务量化模块和多任务请求调度模块;其中动态多任务量化模块用来对部署的模型进行初始多任务联合量化并部署,当后续有新任务需要被引入时,该模块也负责对模型进行重量化;请求池用来缓存各种客户端发来的请求,并交予后续的多任务请求调度模块;多任务请求调度模块对多任务的请求进行调度编排;每当多任务请求调度模块给出一组输入,与现有服务系统类似,将该输入送入推理流程进行处理,获得对应输出的预测值并解码,解码得到的词元则会被流式输出、并被返回给调度模块,等待进行下一轮调度。本发明具有更高的可用性、更好的可扩展性和更优秀的用户体验。
技术关键词
多任务 服务系统 大语言模型 队列 线性 误差矩阵 阶段 解码 正则化参数 模块 基座 量化误差 动态 服务器 策略 客户端 聚类
系统为您推荐了相关专利信息
1
一种基于卷积神经网络模型的烟草水分检测方法
烟草水分检测方法 卷积神经网络模型 输入端 注意力 输出端
2
基于多模态融合的端到端故障诊断识别方法
故障诊断识别方法 表达式 矩阵 多模态 生成结构
3
基于红外图像的洗煤厂设备异常状态检测方法
洗煤厂设备 像素点 清洗设备 序列 红外摄像头
4
一种信息检索中低成本高效的数据融合方法
检索系统 数据融合方法 信息检索 低成本 线性组合法
5
一种机械零件加工数据动态安全保护方法
机械零件 保护方法 因子 异常数据 序列
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号