一种抗遗忘的大语言模型的持续学习方法及系统

正文

推荐专利

申请号：CN202510626234

申请日期：2025-05-15

公开号：CN120449966A

公开日期：2025-08-08

类型：发明专利

摘要

本发明公开了一种抗遗忘的大语言模型的持续学习方法及系统，包括：选取可代表模型通用能力的样本或通过初始大语言模型生成的样本，组成通用抗遗忘样本集；将通用抗遗忘样本集中的每个样本输入初始大语言模型中，计算每个样本的隐状态值；统计所有隐状态值集合分布，计算出相关统计值；根据相关统计值计算出用于阈值边缘损失计算的正激活阈值和负激活阈值；将通用抗遗忘样本集与原有持续学习的数据集进行融合，采用隐状态阈值约束算法进行初始大语言模型的持续学习。本发明是一种基于通用抗遗忘样本隐状态阈值约束优化的大语言模型持续预训练与微调方法，该方法能够有效抗遗忘地学习下游新任务，保持模型的通用能力。

技术关键词

持续学习方法大语言模型样本损失计算方法可读存储介质终端设备微调方法学习系统处理器网络索引模块程序自然语言数据存储器计算机代表算法参数

一种抗遗忘的大语言模型的持续学习方法及系统

站点导航

APP 下载