摘要
本申请涉及大语言模型技术领域,公开了一种基于中间层解码的大语言模型加速处理方法、装置,通过选取LLaMA2‑7B模型作为预训练的大语言模型,增加一个与最后一层Loss相加的中间层Loss分支,中间层能够获得接近最后一层的生成能力。在处理过程中,每个Token由中间层生成,并与最后一层的高质量输出Token进行比较验证,确保生成文本的质量。如果中间层生成的Token与最后一层相同,则加入生成文本序列;如果不同,则重新生成Token。该方法能够提前进入解码计算,减少生成延迟,加速处理过程,同时能够避免引入额外的推测模型,降低内存和计算资源占用,适用于硬件资源受限的环境。
技术关键词
中间层
大语言模型
分支
解码
文本
参数
阶段
模块
序列
代表
框架
内存
速度
受限
系统为您推荐了相关专利信息
主观题评分方法
动态反馈机制
权重机制
知识点
教育评价技术
大语言模型
应用程序编程接口
生成代码
代码生成方法
校验代码
QoE优化方法
全景视频流
信道
比特翻转算法
循环冗余校验
渠道
智能分配系统
预测误差
订单
深度神经网络模型
识别方法
注意力
夜光遥感数据
城市可持续发展
山地丘陵地区