摘要
本发明公开了大模型推理系统及其组件,其中,大模型推理系统,其特征在于:包括服务器、调度器和用户端,所述服务器包括稳定化的键值对缓存机制以及与之相对应的缓存空间管理政策,所述服务器中使用多模型级联的策略;所述用户端包括:资源需求预估组件R‑Predictor、质量保证组件QMM,质量保证组件QMM包括两个子组件,分别是问题难度判断子组件Q‑Judge和回答质量判断子组件R‑Judge。该发明提供一种多模型、可以复用预填充上下文键值对缓存并实现质量保证的大模型推理系统,以解决“重输入、轻输出”场景的自动化智能体调用大模型时的推理服务问题。
技术关键词
推理系统
质量保证
子组件
键值
服务器
缓存机制
多模型
资源
缓存管理技术
智能体交互
内存
调度器
级联
排序策略
生成机制
总量
场景
阶段
关系
系统为您推荐了相关专利信息
MEMS传感器
通信接口芯片
信号采集板卡
处理器芯片
交换机
个性化学习路径
内容分发网络
培训系统
内容更新
数据处理模块
轧辊
数字压力变送器
浸液组件
中央控制单元
浸液槽