一种向大语言模型引入线性注意力机制的处理方法和装置

AITNT
正文
推荐专利
一种向大语言模型引入线性注意力机制的处理方法和装置
申请号:CN202411477726
申请日期:2024-10-22
公开号:CN119357669A
公开日期:2025-01-24
类型:发明专利
摘要
本发明实施例涉及一种向大语言模型引入线性注意力机制的处理方法和装置,所述方法包括:将一类基于Transformer模型架构实现的常规大语言模型作为对应的基版模型;接收模型改善方案记为对应的第一方案;基于第一方案的第一注意力函数配置集对基版模型的注意力函数进行重置并将重置后的模型记为对应的第一大语言模型;并基于第一方案的第一数据集标识对应的模型训练数据集对第一大语言模型进行训练和评估得到对应的第一评估值;并在第一评估值超过第一方案的第一评估指标时,将第一大语言模型作为基版模型的改善版模型。通过本发明可以降低大语言模型的计算资源占用量、提高大语言模型的计算效率。
技术关键词
大语言模型 注意力机制 编码器 线性 输入端 标识 编码向量 数据 文本生成器 自然语言文本 自然语言理解 收发器 指标 计算机 模型预训练 前馈神经网络
系统为您推荐了相关专利信息
1
开环隔离电源及开环隔离电源芯片
开关驱动电路 电压 PWM生成电路 三角波 功率变压器
2
一种基于CA-YOLO的电力系统人员异常行为检测方法
YOLO模型 电力系统 注意力机制 输出特征 卷积模块
3
一种基于Mamba架构的轻量级高精度人体姿态估计方法
人体姿态估计方法 特征提取模块 图像编码 人体姿态数据 人体姿态估计技术
4
高鲁棒性端到端通信系统解码器网络模型设计方法
模型设计方法 特征提取器 后门 通信系统 网络
5
一种稀土电解炉取样勺的形变量估算方法及装置
关键点 取样勺 卷积神经网络模型 稀土电解炉 坐标
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号