训练大语言模型的方法及装置

正文

推荐专利

训练大语言模型的方法及装置

申请号：CN202511054173

申请日期：2025-07-29

公开号：CN120930721A

公开日期：2025-11-11

类型：发明专利

摘要

本说明书实施例涉及训练大语言模型的方法及装置，方法包括：首先，获取大语言模型中各注意力头在预训练版本中的第一权重集合以及在中间版本中的第二权重集合，中间版本针对第一任务对预训练的大语言模型进行全量微调得到；然后，针对任一目标注意力头，分别根据其对应的第一权重集合和第二权重集合，确定第一投影矩阵和第二投影矩阵；接下来，根据第一投影矩阵和第二投影矩阵之间的差异，确定对齐分数；然后，将对齐分数排名靠前的多个注意力头确定为关于第一任务的第一敏感注意力头；最后，利用针对第一任务的第一文本集，对预训练的大语言模型进行第一微调，得到第一模型；第一微调包括，仅调整各第一敏感注意力头的权重。

技术关键词

注意力大语言模型矩阵文本参数微调单元计算机可读存储介质存储器处理器

系统为您推荐了相关专利信息

基于多层级动态纠偏与AI优化的煤矿开采数字孪生方法

数字孪生方法动态纠偏监测点误差径向基函数插值

一种基于AI的智能图像处理方法及系统

智能图像处理方法资源分配参数峰值信噪比智能图像处理系统图片

一种线束端子包覆工装平整度检测方法、系统及存储介质

平整度检测方法线束端子工装激光投影设备图像采集设备

一种基于零售数据的客户行为分析方法及系统

特征值频率客户分析方法代表

一种计及全生命周期成本的独立储能配置优化方法

储能配置优化方法双层优化模型二氧化碳减排量储能系统荷电状态储能系统优化配置技术

训练大语言模型的方法及装置

站点导航

APP 下载