训练大语言模型的方法及装置

AITNT
正文
推荐专利
训练大语言模型的方法及装置
申请号:CN202511054173
申请日期:2025-07-29
公开号:CN120930721A
公开日期:2025-11-11
类型:发明专利
摘要
本说明书实施例涉及训练大语言模型的方法及装置,方法包括:首先,获取大语言模型中各注意力头在预训练版本中的第一权重集合以及在中间版本中的第二权重集合,中间版本针对第一任务对预训练的大语言模型进行全量微调得到;然后,针对任一目标注意力头,分别根据其对应的第一权重集合和第二权重集合,确定第一投影矩阵和第二投影矩阵;接下来,根据第一投影矩阵和第二投影矩阵之间的差异,确定对齐分数;然后,将对齐分数排名靠前的多个注意力头确定为关于第一任务的第一敏感注意力头;最后,利用针对第一任务的第一文本集,对预训练的大语言模型进行第一微调,得到第一模型;第一微调包括,仅调整各第一敏感注意力头的权重。
技术关键词
注意力 大语言模型 矩阵 文本 参数 微调单元 计算机 可读存储介质 存储器 处理器
系统为您推荐了相关专利信息
1
基于多层级动态纠偏与AI优化的煤矿开采数字孪生方法
数字孪生方法 动态纠偏 监测点 误差 径向基函数插值
2
一种基于AI的智能图像处理方法及系统
智能图像处理方法 资源分配参数 峰值信噪比 智能图像处理系统 图片
3
一种线束端子包覆工装平整度检测方法、系统及存储介质
平整度检测方法 线束端子 工装 激光投影设备 图像采集设备
4
一种基于零售数据的客户行为分析方法及系统
特征值 频率 客户 分析方法 代表
5
一种计及全生命周期成本的独立储能配置优化方法
储能配置优化方法 双层优化模型 二氧化碳减排量 储能系统荷电状态 储能系统优化配置技术
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号