摘要
本发明公开了一种基于token融合的大规模语言模型推理优化方法,经过分词器预处理后的文本序列进入嵌入层进行编码,生成词向量和位置向量,将词向量和位置向量相加得到隐藏状态作为Transformer模块的输入矩阵;针对大规模语言模型逐层进行MHA模块的计算、token分组、token融合、MLP模块的计算和token复原操作;重复上述步骤直至大规模语言模型的最后一层;最后一层生成的隐藏状态进入尾接线性层计算,输出词表中各词汇的概率。本发明使用剪枝方法对LLM进行压缩,主要聚焦于如何降低大语言模型的推理延迟。降低推理延迟需要使用模型压缩技术对大语言模型进行压缩,减少模型推理的计算量从而降低推理延迟,加速推理过程,同时还可以保证尽量小的精度损失。
技术关键词
多头注意力机制
多层感知机
掩码矩阵
模块
线性
剪枝方法
模型压缩
大语言模型
索引
元素
编码
代表
序列
文本
键值
格式
数值
定义
系统为您推荐了相关专利信息
寿命评估方法
固态功放
仿真分析
仿真模型
固态放大器
车辆导航信息
灯光管理
多模态
交叉注意力机制
控制器模块
作业线
路径规划方法
Dubins曲线
农机
电子设备