摘要
本发明实施例涉及一种向大语言模型引入线性注意力机制的处理方法和装置,所述方法包括:将一类基于Transformer模型架构实现的常规大语言模型作为对应的基版模型;接收模型改善方案记为对应的第一方案;基于第一方案的第一注意力函数配置集对基版模型的注意力函数进行重置并将重置后的模型记为对应的第一大语言模型;并基于第一方案的第一数据集标识对应的模型训练数据集对第一大语言模型进行训练和评估得到对应的第一评估值;并在第一评估值超过第一方案的第一评估指标时,将第一大语言模型作为基版模型的改善版模型。通过本发明可以降低大语言模型的计算资源占用量、提高大语言模型的计算效率。
技术关键词
大语言模型
注意力机制
编码器
线性
输入端
标识
编码向量
数据
文本生成器
自然语言文本
自然语言理解
收发器
指标
计算机
模型预训练
前馈神经网络
系统为您推荐了相关专利信息
开关驱动电路
电压
PWM生成电路
三角波
功率变压器
YOLO模型
电力系统
注意力机制
输出特征
卷积模块
人体姿态估计方法
特征提取模块
图像编码
人体姿态数据
人体姿态估计技术
关键点
取样勺
卷积神经网络模型
稀土电解炉
坐标