摘要
本申请实施例涉及人工智能技术领域,公开了一种推理方法及系统、电子设备、存储介质。推理方法包括:接收用户请求,其中,所述用户请求携带输入信息;根据所述输入信息,在缓存中进行匹配,得到匹配的token序列及其KV参数;根据所述匹配的token序列及其KV参数、所述输入信息,进行推理;将推理得到的token序列及其KV参数存储至所述缓存,并根据推理的结果响应所述用户请求。至少有利于提高推理效率,加快对用户请求的响应,提升用户体验。
技术关键词
推理方法
序列
集群
节点
参数
存储模块
分支
负载均衡策略
电子设备
推理系统
人工智能技术
处理器通信
数据存储
可读存储介质
通知
存储器
机制