摘要
本发明公开了一种抗遗忘的大语言模型的持续学习方法及系统,包括:选取可代表模型通用能力的样本或通过初始大语言模型生成的样本,组成通用抗遗忘样本集;将通用抗遗忘样本集中的每个样本输入初始大语言模型中,计算每个样本的隐状态值;统计所有隐状态值集合分布,计算出相关统计值;根据相关统计值计算出用于阈值边缘损失计算的正激活阈值和负激活阈值;将通用抗遗忘样本集与原有持续学习的数据集进行融合,采用隐状态阈值约束算法进行初始大语言模型的持续学习。本发明是一种基于通用抗遗忘样本隐状态阈值约束优化的大语言模型持续预训练与微调方法,该方法能够有效抗遗忘地学习下游新任务,保持模型的通用能力。
技术关键词
持续学习方法
大语言模型
样本
损失计算方法
可读存储介质
终端设备
微调方法
学习系统
处理器
网络
索引
模块
程序
自然语言
数据
存储器
计算机
代表
算法
参数