摘要
本发明公开了一种基于孪生大语言模型交织记忆的参数高效微调方法,包括如下步骤:步骤一、预先构建两个共享相同结构和预训练参数的大语言模型;其中一个大语言模型保持原始参数保持冻结,另一个大语言模型使用参数高效微调方法微调;步骤二、利用步骤一中构建获得的两个大语言模型分别处理给定的输入,分别生成不同的记忆;所述记忆是指所述大语言模型生成的最后一层隐藏状态;步骤三、引入孪生大语言模型交织记忆机制,调节冻结原始参数的大语言模型和使用参数高效微调方法微调的大语言模型的记忆对生成下一个词元的贡献。本发明不仅在下游任务上实现了卓越的性能,还有效地缓解了灾难性遗忘问题,并且无需增加额外的微调时间。
技术关键词
大语言模型
微调方法
记忆机制
适配器
线性
机器翻译
模块
矩阵
超参数
文本
序列
代表
元素
系统为您推荐了相关专利信息
心理咨询机器人
大语言模型
生成自然语言
数据加密
加密技术
轨迹跟踪控制方法
包络
预测控制策略
管状模型
扰动观测器
文本特征向量
答案检索方法
医学
教学
信息提取模型