一种向大语言模型引入线性注意力机制的处理方法和装置

正文

推荐专利

申请号：CN202411477726

申请日期：2024-10-22

公开号：CN119357669A

公开日期：2025-01-24

类型：发明专利

摘要

本发明实施例涉及一种向大语言模型引入线性注意力机制的处理方法和装置，所述方法包括：将一类基于Transformer模型架构实现的常规大语言模型作为对应的基版模型；接收模型改善方案记为对应的第一方案；基于第一方案的第一注意力函数配置集对基版模型的注意力函数进行重置并将重置后的模型记为对应的第一大语言模型；并基于第一方案的第一数据集标识对应的模型训练数据集对第一大语言模型进行训练和评估得到对应的第一评估值；并在第一评估值超过第一方案的第一评估指标时，将第一大语言模型作为基版模型的改善版模型。通过本发明可以降低大语言模型的计算资源占用量、提高大语言模型的计算效率。

技术关键词

大语言模型注意力机制编码器线性输入端标识编码向量数据文本生成器自然语言文本自然语言理解收发器指标计算机模型预训练前馈神经网络

系统为您推荐了相关专利信息

开环隔离电源及开环隔离电源芯片

开关驱动电路电压 PWM生成电路三角波功率变压器

一种基于CA-YOLO的电力系统人员异常行为检测方法

YOLO模型电力系统注意力机制输出特征卷积模块

一种基于Mamba架构的轻量级高精度人体姿态估计方法

人体姿态估计方法特征提取模块图像编码人体姿态数据人体姿态估计技术

高鲁棒性端到端通信系统解码器网络模型设计方法

模型设计方法特征提取器后门通信系统网络

一种稀土电解炉取样勺的形变量估算方法及装置

关键点取样勺卷积神经网络模型稀土电解炉坐标

一种向大语言模型引入线性注意力机制的处理方法和装置

站点导航

APP 下载