摘要
本发明涉及大模型调度技术领域,具体公开了一种大语言模型多用户高并发高吞吐推理方法及系统,所述方法包括对每一采集时段内的所有用户信息进行识别,提取并统计字词,得到字词库;根据所述字词库确定宏观限制边界;以每个用户为索引,统计用户信息对应的字词,得到每个用户的字词变化信息,根据所述字词变化信息在宏观限制边界中确定微观限制边界;对任一用户,根据微观限制边界蒸馏得到子模型,基于所述子模型构建交互信道;本发明为每个用户蒸馏出单独的子模型,用于完成其大部分交互需求,响应速度极快,并且蒸馏出的子模型一般是本地模型,不占用大模型的实时资源,优化了任务处理架构。
技术关键词
大语言模型
推理方法
多用户
查询字词
模型调度技术
信道
推理系统
蒸馏
模型更新
索引
指令
标签
合并单元
模块
记录单元
端点
进程
标记
处理器
系统为您推荐了相关专利信息
智能体交互
节点
计算机程序产品
存储装置
大语言模型
网页结构
网页数据解析方法
大语言模型
网页元素
计算机设备
智能客服问答方法
长短期记忆模型
行业知识图谱
门控循环单元
文本