基于token融合的大规模语言模型推理优化方法

正文

推荐专利

申请号：CN202410750336

申请日期：2024-06-12

公开号：CN118761468B

公开日期：2025-12-09

类型：发明专利

摘要

本发明公开了一种基于token融合的大规模语言模型推理优化方法，经过分词器预处理后的文本序列进入嵌入层进行编码，生成词向量和位置向量，将词向量和位置向量相加得到隐藏状态作为Transformer模块的输入矩阵；针对大规模语言模型逐层进行MHA模块的计算、token分组、token融合、MLP模块的计算和token复原操作；重复上述步骤直至大规模语言模型的最后一层；最后一层生成的隐藏状态进入尾接线性层计算，输出词表中各词汇的概率。本发明使用剪枝方法对LLM进行压缩，主要聚焦于如何降低大语言模型的推理延迟。降低推理延迟需要使用模型压缩技术对大语言模型进行压缩，减少模型推理的计算量从而降低推理延迟，加速推理过程，同时还可以保证尽量小的精度损失。

技术关键词

多头注意力机制多层感知机掩码矩阵模块线性剪枝方法模型压缩大语言模型索引元素编码代表序列文本键值格式数值定义

系统为您推荐了相关专利信息

健康数据演化分析方法、装置、设备及介质

演化分析方法图谱多模态特征嵌入特征报告

一种电化学储能磷酸铁锂电芯离群诊断方法、系统和电子设备

磷酸铁锂电芯诊断方法周期神经网络模型内阻

一种基于热力耦合的固态功放寿命评估方法

寿命评估方法固态功放仿真分析仿真模型固态放大器

一种基于多模态的车辆灯光管理方法及系统

车辆导航信息灯光管理多模态交叉注意力机制控制器模块

一种对角耙地路径规划方法、装置、设备、介质及农机

作业线路径规划方法 Dubins曲线农机电子设备

基于token融合的大规模语言模型推理优化方法

站点导航

APP 下载