基于中间层解码的大语言模型加速处理方法、装置

正文

推荐专利

申请号：CN202410854936

申请日期：2024-06-28

公开号：CN118396044A

公开日期：2024-07-26

类型：发明专利

摘要

本申请涉及大语言模型技术领域，公开了一种基于中间层解码的大语言模型加速处理方法、装置，通过选取LLaMA2‑7B模型作为预训练的大语言模型，增加一个与最后一层Loss相加的中间层Loss分支，中间层能够获得接近最后一层的生成能力。在处理过程中，每个Token由中间层生成，并与最后一层的高质量输出Token进行比较验证，确保生成文本的质量。如果中间层生成的Token与最后一层相同，则加入生成文本序列；如果不同，则重新生成Token。该方法能够提前进入解码计算，减少生成延迟，加速处理过程，同时能够避免引入额外的推测模型，降低内存和计算资源占用，适用于硬件资源受限的环境。

技术关键词

中间层大语言模型分支解码文本参数阶段模块序列代表框架内存速度受限

系统为您推荐了相关专利信息

一种基于大模型的多维度可解释主观题评分方法

主观题评分方法动态反馈机制权重机制知识点教育评价技术

一种代码生成方法、装置、介质及设备

大语言模型应用程序编程接口生成代码代码生成方法校验代码

无线通信全景视频流QoE优化方法、装置及计算机设备

QoE优化方法全景视频流信道比特翻转算法循环冗余校验

基于交易类型的跨境支付渠道智能分配系统

渠道智能分配系统预测误差订单深度神经网络模型

一种基于HUENet的城市爬坡识别方法

识别方法注意力夜光遥感数据城市可持续发展山地丘陵地区

基于中间层解码的大语言模型加速处理方法、装置

站点导航

APP 下载