摘要
本申请提供一种基于大语言模型的推理方法、装置、电子设备及存储介质。该方法包括:将接收到的推理请求发送给云端,以使云端基于第一模型生成推理请求对应的键值缓存,并对键值缓存进行量化获得第一量化后的键值缓存;接收云端返回的第一量化后的键值缓存,基于第一量化后的键值缓存和第二模型生成推理请求对应的候选token序列;向云端发送候选token序列,以使云端利用键值缓存和第一模型对候选token序列进行验证,获得推理结果。本申请实施例通过在云端部署参数量大的模型,在移动终端部署参数量小的模型,在移动终端接收到推理请求后,与云端协同处理,最终给出推理结果,提高了推理的准确性。
技术关键词
键值
移动终端
云端
大语言模型
推理方法
序列
计算机程序指令
电子设备
处理器
推理系统
计算机程序产品
存储器
加密
数据
系统为您推荐了相关专利信息
柑橘育苗
灌溉方法
二级模糊控制
模糊控制技术
传感器
状态监测模块
防护系统
通讯
云端数据同步
加密解密模块
水质预测方法
序列
数据
滑动窗口方法
建立预测模型