摘要
本发明实施例提供一种基于方差缩减和动量加速的大语言模型优化方法。该方法包括:大语言模型的梯度估计阶段,初始化种子列表以及投影列表;执行多次独立的查询迭代,调用扰动子程序,为大语言模型生成随机种子并存储表;在扰动子程序中,依确定出梯度投影值存储至投影列表,并为了下次查询迭代;在执行多次独立的查询迭代后,存储多个随机种子及与之对应的多个梯度投影值;在大语言模型的权重更新阶段中,对大语言模型的每一层调用梯度范数子程序,获取随机种子重置随机数生成器;将从投影列表取出的梯度投影值与复现的扰动向量确定出方差缩减的梯度估计。本发明实施例聚合多次查询的梯度信息来生成低噪声的梯度估计,完成对大语言模型的微调。
技术关键词
大语言模型
语言模型优化方法
列表
种子
优化器
生成随机
随机梯度下降
模型优化系统
计算机程序产品
生成低噪声
参数
阶段
内存
矩阵
存储表
处理器通信
指令
存储器
电子设备
系统为您推荐了相关专利信息
病虫害图像
注意力
更新模型参数
文本
融合图像特征
关联检索方法
抓取网页内容
大语言模型
企业知识库
上下文管理