摘要
本申请公开了一种大模型的推理加速方法、设备及存储介质,方法包括:将提示信息分别输入至多个不同的小模型中,分别得到每个小模型输出的草稿词元序列;获取每个小模型对应的序列选取数量,分别从每个小模型输出的草稿词元序列中筛选出序列选取数量个草稿词元序列,得到被选中的草稿词元序列;将每个被选中的草稿词元序列输入至大模型进行验证,得到大模型输出的最终词元序列;计算每个小模型对应的正确接收率;基于每个小模型对应的正确接收率,调整每个小模型对应的序列选取数量,可以生成更多的草稿词元序列,且通过正确接收率调整各个小模型的序列选取数量,可以降低无效草稿词元序列造成的计算开销,有效提高大模型的推理速度。
技术关键词
序列
语法模型
场景
周期
可读存储介质
电子设备
处理器
程序
指令
存储器
计算机
数据
参数
样本
速度
系统为您推荐了相关专利信息
网络安全访问控制方法
终端设备
网关设备
证书验证
信息验证
光伏电源
能量分配策略
储能模块
管理方法
光伏发电量