摘要
本申请公开了一种推理方法、相关装置及推理系统,应用于推理加速技术领域,推理方法包括:云端服务器通过对第一模型进行模型蒸馏得到第二模型,通过复制第二模型得到影子模型,将第二模型发送至终端;终端在本地部署第二模型,利用本地的第二模型对用户请求进行推理;终端将推理相关数据发送至云端服务器;云端服务器利用推理相关数据,辅以第一模型对影子模型进行参数优化,将影子模型的优化后参数发送至终端;终端根据影子模型的优化后参数对本地的第二模型进行参数优化。由于推理过程由端侧的本地小模型完成,因此,本申请公开的推理方法具有较高的推理速度,另外,本申请提供的推理方法可通过云侧的影子模型实现对于端侧模型的优化。
技术关键词
推理方法
云端服务器
终端
参数
推理装置
推理系统
数据发送模块
计算机可读指令
数据接收模块
蒸馏
存储计算机程序
电子设备
处理器
计算机存储介质
存储器
计算机程序产品
速度