基于方差缩减和动量加速的大语言模型优化方法及系统

正文

推荐专利

申请号：CN202511177905

申请日期：2025-08-21

公开号：CN120910340A

公开日期：2025-11-07

类型：发明专利

摘要

本发明实施例提供一种基于方差缩减和动量加速的大语言模型优化方法。该方法包括：大语言模型的梯度估计阶段，初始化种子列表以及投影列表；执行多次独立的查询迭代，调用扰动子程序，为大语言模型生成随机种子并存储表；在扰动子程序中，依确定出梯度投影值存储至投影列表，并为了下次查询迭代；在执行多次独立的查询迭代后，存储多个随机种子及与之对应的多个梯度投影值；在大语言模型的权重更新阶段中，对大语言模型的每一层调用梯度范数子程序，获取随机种子重置随机数生成器；将从投影列表取出的梯度投影值与复现的扰动向量确定出方差缩减的梯度估计。本发明实施例聚合多次查询的梯度信息来生成低噪声的梯度估计，完成对大语言模型的微调。

技术关键词

大语言模型语言模型优化方法列表种子优化器生成随机随机梯度下降模型优化系统计算机程序产品生成低噪声参数阶段内存矩阵存储表处理器通信指令存储器电子设备

病虫害图像注意力更新模型参数文本融合图像特征

一种基于大模型的智能问答方法及系统

文本混合检索方法智能问答方法列表关键词

基于RAG技术的内外网知识关联检索方法

关联检索方法抓取网页内容大语言模型企业知识库上下文管理

一种基于人工智能大模型和智能体的工业设计自动化方法

大语言模型自动化方法接口仿真器仿真软件

目标数据的获取方法和装置、存储介质及计算机程序产品

大语言模型对象语句计算机程序产品数据

基于方差缩减和动量加速的大语言模型优化方法及系统

站点导航

APP 下载