摘要
本申请提供一种模型推理方法、装置、电子设备、存储介质及程序产品。该方法包括:通过大语言模型,采用第一数值精度对已推理tokens进行注意力计算,获得每个已推理token对应的第一注意力分数;基于第一注意力分数从已推理tokens中筛选目标tokens;通过大语言模型,采用第二数值精度对输入序列进行推理,获得大语言模型输出的推理结果;输入序列包括目标tokens和待推理token对应的待输入tokens;待输入tokens为根据预设规则从已推理tokens中预选取的tokens;第一数值精度低于第二数值精度。本申请采用混合精度计算实现了token的稀疏化处理,从而提高了大语言模型的推理效率。
技术关键词
大语言模型
注意力
数值
精度
推理方法
计算机程序指令
序列
强化学习算法
信息熵
电子设备
推理装置
处理器
计算机程序产品
存储器
模块
系统为您推荐了相关专利信息
被动散热结构
PLC控制器
高精度传感器
综合评估模型
故障案例库
膝关节
应力
生成式对抗网络
机器学习模型
分布计算方法