摘要
本申请适用于计算机技术领域,提供了一种基于双向块状浮点的大语言模型推理加速方法,包括:通过将输入文本编码为Token序列,并在Transformer推理过程中以双向块状浮点数格式表示隐藏表示和logits,结合基于双向块状浮点数的查表法的Softmax归一化方法,实现低比特高效推理,生成推理结果。本申请在实现了在保持生成精度的同时,显著降低推理过程的计算复杂度与存储开销,提高了大语言模型的推理速度与能效比。
技术关键词
浮点数
查表法
注意力
贪心策略
序列
格式
文本
前馈神经网络
查找表
标志位
归一化方法
可读存储介质
指数
加速装置
处理器
拼接模块
编码
数值
非线性
系统为您推荐了相关专利信息
电缆故障检测方法
检测电缆
故障分类器
历史故障数据
决策树模型
生态控制方法
光生物反应器
轮廓系数
碳酸钙
光照
生理
序列
计算机可存储介质
矩阵
信息数据处理终端