基于token融合的大规模语言模型推理优化方法

AITNT
正文
推荐专利
基于token融合的大规模语言模型推理优化方法
申请号:CN202410750336
申请日期:2024-06-12
公开号:CN118761468B
公开日期:2025-12-09
类型:发明专利
摘要
本发明公开了一种基于token融合的大规模语言模型推理优化方法,经过分词器预处理后的文本序列进入嵌入层进行编码,生成词向量和位置向量,将词向量和位置向量相加得到隐藏状态作为Transformer模块的输入矩阵;针对大规模语言模型逐层进行MHA模块的计算、token分组、token融合、MLP模块的计算和token复原操作;重复上述步骤直至大规模语言模型的最后一层;最后一层生成的隐藏状态进入尾接线性层计算,输出词表中各词汇的概率。本发明使用剪枝方法对LLM进行压缩,主要聚焦于如何降低大语言模型的推理延迟。降低推理延迟需要使用模型压缩技术对大语言模型进行压缩,减少模型推理的计算量从而降低推理延迟,加速推理过程,同时还可以保证尽量小的精度损失。
技术关键词
多头注意力机制 多层感知机 掩码矩阵 模块 线性 剪枝方法 模型压缩 大语言模型 索引 元素 编码 代表 序列 文本 键值 格式 数值 定义
系统为您推荐了相关专利信息
1
健康数据演化分析方法、装置、设备及介质
演化分析方法 图谱 多模态特征 嵌入特征 报告
2
一种电化学储能磷酸铁锂电芯离群诊断方法、系统和电子设备
磷酸铁锂电芯 诊断方法 周期 神经网络模型 内阻
3
一种基于热力耦合的固态功放寿命评估方法
寿命评估方法 固态功放 仿真分析 仿真模型 固态放大器
4
一种基于多模态的车辆灯光管理方法及系统
车辆导航信息 灯光管理 多模态 交叉注意力机制 控制器模块
5
一种对角耙地路径规划方法、装置、设备、介质及农机
作业线 路径规划方法 Dubins曲线 农机 电子设备
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号