摘要
本发明公开了一种基于梯度压缩的大语言模型联邦微调方法和装置,方法包括以下步骤:基于大语言模型微调中产生的梯度张量构建具有时间序列关系的原始数据集并通过自编码器推理得到重构梯度数据集,构建重构损失函数对自编码器进行优化;在服务器端将大语言模型的基座模型初始化为全局模型,服务器端将全局模型更新至客户端,在客户端利用预训练编码器得到压缩后的梯度,在服务器端利用预训练解码器将压缩后的梯度进行解码和聚合后更新全局模型。本发明能够在保证数据隐私保护的同时实现大语言模型微调效率的提升以及计算资源需求的降低,适用于面向科学计算的大模型微调和训练过程中通信优化提高以及隐私保护增强等应用场景。
技术关键词
微调方法
编码器
时间序列关系
大语言模型
客户端
重构
解码器
模型更新
面向科学计算
反卷积神经网络
多层卷积神经网络
梯度下降算法
阶段
数据
存储计算机程序
梯度下降法
微调装置
基座
模块