摘要
本发明提供一种语言模型训练方法、语言任务处理方法及系统,其中方法包括:根据样本语言数据和样本语言数据对应的样本语言任务的标注标签,获取大语言模型在当前周期的当前模型参数矩阵对应的原始增量矩阵;根据原始增量矩阵中各子矩阵的数据分布特征,对原始增量矩阵进行降秩处理,得到当前模型参数矩阵对应的目标增量矩阵;根据目标增量矩阵,对当前模型参数矩阵进行更新,根据更新结果,构建样本语言任务对应的目标语言模型。本发明实现依据原始增量矩阵中的各子矩阵的数据分布特征分解形成多个低秩矩阵来近似原始增量矩阵,进而实现语言模型的微调训练,可保持语言任务处理的高精度的同时,显著减少计算资源和数据存储需求。
技术关键词
语言模型训练方法
数据分布特征
大语言模型
样本
语言模型训练系统
参数
重构矩阵
非暂态计算机可读存储介质
标签
周期
数据处理单元
处理器
数值
语义
数据存储
存储器
电子设备