语言模型训练方法、语言任务处理方法及系统

正文

推荐专利

申请号：CN202411951357

申请日期：2024-12-27

公开号：CN119721297A

公开日期：2025-03-28

类型：发明专利

摘要

本发明提供一种语言模型训练方法、语言任务处理方法及系统，其中方法包括：根据样本语言数据和样本语言数据对应的样本语言任务的标注标签，获取大语言模型在当前周期的当前模型参数矩阵对应的原始增量矩阵；根据原始增量矩阵中各子矩阵的数据分布特征，对原始增量矩阵进行降秩处理，得到当前模型参数矩阵对应的目标增量矩阵；根据目标增量矩阵，对当前模型参数矩阵进行更新，根据更新结果，构建样本语言任务对应的目标语言模型。本发明实现依据原始增量矩阵中的各子矩阵的数据分布特征分解形成多个低秩矩阵来近似原始增量矩阵，进而实现语言模型的微调训练，可保持语言任务处理的高精度的同时，显著减少计算资源和数据存储需求。

技术关键词

语言模型训练方法数据分布特征大语言模型样本语言模型训练系统参数重构矩阵非暂态计算机可读存储介质标签周期数据处理单元处理器数值语义数据存储存储器电子设备

语言模型训练方法、语言任务处理方法及系统

站点导航

APP 下载