摘要
本申请实施例涉及人工智能技术领域,公开了一种推理方法及系统、电子设备、存储介质。推理方法,包括:接收用户请求,其中,所述用户请求携带输入信息;根据所述输入信息,在第一缓存中进行匹配;基于所述第二缓存,将匹配到的token序列及其KV参数、所述输入信息传递至第三缓存,以使推理模型基于所述第三缓存进行推理计算,并将推理得到的token序列及其KV参数传递至所述第一缓存进行存储。至少有利于减少推理过程中的数据传输开销和成本,以进一步提高推理效率。
技术关键词
推理方法
参数
序列
集群
推理系统
数据传输开销
电子设备
人工智能技术
处理器通信
可读存储介质
主机
存储器
指令
计算机
系统为您推荐了相关专利信息
NOx浓度预测方法
SCR脱硝系统
LSTM模型
超参数
历史运行数据
食管鳞癌诊断
标志物
食管鳞癌患者
核苷酸
食管鳞癌辅助诊断
情绪评估方法
梅尔频率倒谱系数
语音
电信号
序列
相机标定方法
标定板图像
车间
图像分割网络
搜索算法
处理单元
系数乘法器
符号
比特流
轻量级神经网络