摘要
本说明书实施例涉及训练大语言模型的方法及装置,方法包括:首先,获取大语言模型中各注意力头在预训练版本中的第一权重集合以及在中间版本中的第二权重集合,中间版本针对第一任务对预训练的大语言模型进行全量微调得到;然后,针对任一目标注意力头,分别根据其对应的第一权重集合和第二权重集合,确定第一投影矩阵和第二投影矩阵;接下来,根据第一投影矩阵和第二投影矩阵之间的差异,确定对齐分数;然后,将对齐分数排名靠前的多个注意力头确定为关于第一任务的第一敏感注意力头;最后,利用针对第一任务的第一文本集,对预训练的大语言模型进行第一微调,得到第一模型;第一微调包括,仅调整各第一敏感注意力头的权重。
技术关键词
注意力
大语言模型
矩阵
文本
参数
微调单元
计算机
可读存储介质
存储器
处理器
系统为您推荐了相关专利信息
数字孪生方法
动态纠偏
监测点
误差
径向基函数插值
智能图像处理方法
资源分配参数
峰值信噪比
智能图像处理系统
图片
平整度检测方法
线束端子
工装
激光投影设备
图像采集设备
储能配置优化方法
双层优化模型
二氧化碳减排量
储能系统荷电状态
储能系统优化配置技术