基于方差缩减和动量加速的大语言模型优化方法及系统

AITNT
正文
推荐专利
基于方差缩减和动量加速的大语言模型优化方法及系统
申请号:CN202511177905
申请日期:2025-08-21
公开号:CN120910340A
公开日期:2025-11-07
类型:发明专利
摘要
本发明实施例提供一种基于方差缩减和动量加速的大语言模型优化方法。该方法包括:大语言模型的梯度估计阶段,初始化种子列表以及投影列表;执行多次独立的查询迭代,调用扰动子程序,为大语言模型生成随机种子并存储表;在扰动子程序中,依确定出梯度投影值存储至投影列表,并为了下次查询迭代;在执行多次独立的查询迭代后,存储多个随机种子及与之对应的多个梯度投影值;在大语言模型的权重更新阶段中,对大语言模型的每一层调用梯度范数子程序,获取随机种子重置随机数生成器;将从投影列表取出的梯度投影值与复现的扰动向量确定出方差缩减的梯度估计。本发明实施例聚合多次查询的梯度信息来生成低噪声的梯度估计,完成对大语言模型的微调。
技术关键词
大语言模型 语言模型优化方法 列表 种子 优化器 生成随机 随机梯度下降 模型优化系统 计算机程序产品 生成低噪声 参数 阶段 内存 矩阵 存储表 处理器通信 指令 存储器 电子设备
系统为您推荐了相关专利信息
1
一种基于Stable Diffusion和Grounding的荔枝病虫害图像生成方法
病虫害图像 注意力 更新模型参数 文本 融合图像特征
2
一种基于大模型的智能问答方法及系统
文本 混合检索方法 智能问答方法 列表 关键词
3
基于RAG技术的内外网知识关联检索方法
关联检索方法 抓取网页内容 大语言模型 企业知识库 上下文管理
4
一种基于人工智能大模型和智能体的工业设计自动化方法
大语言模型 自动化方法 接口 仿真器 仿真软件
5
目标数据的获取方法和装置、存储介质及计算机程序产品
大语言模型 对象 语句 计算机程序产品 数据
添加客服微信openai178,进AITNT官方交流群
驱动智慧未来:提供一站式AI转型解决方案
沪ICP备2023015588号