一种基于孪生大语言模型交织记忆的参数高效微调方法、系统及应用

AITNT
正文
推荐专利
一种基于孪生大语言模型交织记忆的参数高效微调方法、系统及应用
申请号:CN202410829181
申请日期:2024-06-25
公开号:CN119089940B
公开日期:2025-07-22
类型:发明专利
摘要
本发明公开了一种基于孪生大语言模型交织记忆的参数高效微调方法,包括如下步骤:步骤一、预先构建两个共享相同结构和预训练参数的大语言模型;其中一个大语言模型保持原始参数保持冻结,另一个大语言模型使用参数高效微调方法微调;步骤二、利用步骤一中构建获得的两个大语言模型分别处理给定的输入,分别生成不同的记忆;所述记忆是指所述大语言模型生成的最后一层隐藏状态;步骤三、引入孪生大语言模型交织记忆机制,调节冻结原始参数的大语言模型和使用参数高效微调方法微调的大语言模型的记忆对生成下一个词元的贡献。本发明不仅在下游任务上实现了卓越的性能,还有效地缓解了灾难性遗忘问题,并且无需增加额外的微调时间。
技术关键词
大语言模型 微调方法 记忆机制 适配器 线性 机器翻译 模块 矩阵 超参数 文本 序列 代表 元素
系统为您推荐了相关专利信息
1
基于微信平台的心理咨询机器人系统
心理咨询机器人 大语言模型 生成自然语言 数据加密 加密技术
2
多目标约束下空间非合作目标最优包络轨迹跟踪控制方法
轨迹跟踪控制方法 包络 预测控制策略 管状模型 扰动观测器
3
一种基于特征提取的医学教学习题答案检索方法
文本特征向量 答案检索方法 医学 教学 信息提取模型
4
一种基于多模态眼科知识图谱的眼科辅诊报告生成方法
节点 眼科 图像 视觉特征 报告生成方法
5
光模块的发射光功率调节方法
通信基站 光功率 线性回归模型 实时通信 动态
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号