一种基于注意力混合的语言模型持续学习方法

正文

推荐专利

申请号：CN202510289267

申请日期：2025-03-12

公开号：CN120124711A

公开日期：2025-06-10

类型：发明专利

摘要

一种基于注意力混合的语言模型持续学习方法，旨在为一系列任务学习特定的LoRA专家模块，使模型能够持续不断地从不同任务中高效学习知识。该方法的核心在于精心设计了一种注意力机制，将其作为知识混合模块，以此来自适应地整合每个LoRA的信息。借助这一注意力机制，模型能够筛选并有效利用这些独特价值，降低了不同LoRA之间相互负作用的风险，从而避免灾难性遗忘的产生。此外，本发明在学习过程中引入L1范数。L1范数的加入使得注意力向量更加稀疏，促使模型在众多LoRA中倾向于选择与当前任务高度相关的部分，而非不加区分地将所有LoRA聚集并加权。这一优化进一步减少了相互干扰带来的负面影响，显著提升模型的泛化能力和学习效果。

技术关键词

持续学习方法矩阵 Softmax函数注意力机制参数预训练模型混合模块序列变量非线性框架基准数据核心代表基座风险

系统为您推荐了相关专利信息

重点预约和申报排队模式下内河船舶预约过闸调度方法

内河船舶等待时间差异分数阶表达式模式

一种调查问卷综合评价模型构建方法、设备、介质及产品

综合指标体系综合评价模型层次分析法方差贡献率矩阵

具身机器人控制系统的地图构建方法、具身机器人及介质

地图构建方法物体机器人控制系统计算机可读取存储介质图像

用于视觉障碍者导航辅助的障碍物检测方法和可读介质

障碍物检测方法检测障碍物计算机可执行指令网络视觉

一种转向控制方法、装置及机器人

机器人 PID控制器电机转向控制方法光伏组件

一种基于注意力混合的语言模型持续学习方法

站点导航

APP 下载