一种基于注意力混合的语言模型持续学习方法

AITNT
正文
推荐专利
一种基于注意力混合的语言模型持续学习方法
申请号:CN202510289267
申请日期:2025-03-12
公开号:CN120124711A
公开日期:2025-06-10
类型:发明专利
摘要
一种基于注意力混合的语言模型持续学习方法,旨在为一系列任务学习特定的LoRA专家模块,使模型能够持续不断地从不同任务中高效学习知识。该方法的核心在于精心设计了一种注意力机制,将其作为知识混合模块,以此来自适应地整合每个LoRA的信息。借助这一注意力机制,模型能够筛选并有效利用这些独特价值,降低了不同LoRA之间相互负作用的风险,从而避免灾难性遗忘的产生。此外,本发明在学习过程中引入L1范数。L1范数的加入使得注意力向量更加稀疏,促使模型在众多LoRA中倾向于选择与当前任务高度相关的部分,而非不加区分地将所有LoRA聚集并加权。这一优化进一步减少了相互干扰带来的负面影响,显著提升模型的泛化能力和学习效果。
技术关键词
持续学习方法 矩阵 Softmax函数 注意力机制 参数 预训练模型 混合模块 序列 变量 非线性 框架 基准 数据 核心 代表 基座 风险
系统为您推荐了相关专利信息
1
重点预约和申报排队模式下内河船舶预约过闸调度方法
内河船舶 等待时间差异 分数阶 表达式 模式
2
一种调查问卷综合评价模型构建方法、设备、介质及产品
综合指标体系 综合评价模型 层次分析法 方差贡献率 矩阵
3
具身机器人控制系统的地图构建方法、具身机器人及介质
地图构建方法 物体 机器人控制系统 计算机可读取存储介质 图像
4
用于视觉障碍者导航辅助的障碍物检测方法和可读介质
障碍物检测方法 检测障碍物 计算机可执行指令 网络 视觉
5
一种转向控制方法、装置及机器人
机器人 PID控制器 电机 转向控制方法 光伏组件
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号