摘要
本发明涉及大模型技术领域,公开了大模型推理优化方法、装置、计算机设备及介质,该方法包括:接收当前输入请求,并判断当前输入请求是否存在于端侧缓存中;如果当前输入请求存在于所述端侧缓存中,则确定所述端侧缓存中与当前输入请求对应的输出结果为基于当前输入请求推理计算应得的输出结果;如果当前输入请求不存在于所述端侧缓存中,则利用云端的大模型基于当前输入请求进行推理计算得到相应输出结果,同时将当前输入请求及相应输出结果存储至所述端侧缓存中。可见,本方案能够有效提高输出稳定的同时,一定程度上避免大模型严重重复浪费。
技术关键词
计算机设备
频率
云端
时间段
可读存储介质
优化装置
模型更新
存储器
处理器
指令
通知
模块
系统为您推荐了相关专利信息
模式切换控制单元
传输待传输数据
芯片
互联交换方法
网格拓扑结构
计量检测方法
直流充电桩
计量误差
贝叶斯模型
误差估计值
机器学习模型
异常数据
策略
故障特征
分布式发布订阅消息系统