一种基于强化学习微调的大型语言模型优化方法

正文

推荐专利

申请号：CN202511024220

申请日期：2025-07-24

公开号：CN120911540A

公开日期：2025-11-07

类型：发明专利

摘要

本发明涉及大型语言模型技术领域，公开了一种基于强化学习微调的大型语言模型优化方法，包括：采集目标模型交互得到的优势值，以大小为T×B的优势矩阵；依据预设窗口对优势矩阵从时间维度进行分割处理，形成m个分片；依据m个分片分别确定优势矩阵的源分布，以及构建代价矩阵；基于源分布和代价矩阵，确定大小为m×m的传输矩阵；基于传输矩阵确定第p个分片的净能量搬运量；根据第p个分片的净能量搬运量、优势矩阵和预设窗口，对优势矩阵进行更新处理，得到更新优势矩阵；基于更新优势矩阵计算损失值，以损失值执行反向传播，更新目标模型。

技术关键词

语言模型优化方法矩阵分片元素变量总量语言模型技术指数策略参数

系统为您推荐了相关专利信息

一种基于多模态数据融合、区域划分的森林火灾温度误差在线补偿方法、系统及存储介质

多模态数据融合在线补偿方法红外热像仪可见光图像惯导坐标系

一种拖动者助力者系统的分散式协作搬运方法

搬运方法助力信息数据处理终端轨迹机器人

一种基于强化学习的前置仓分拣线路规划方法

线路规划方法前置仓神经网络参数货架栅格

一种基于大语言模型的汽车行业知识库构建方法及系统

知识库构建方法大语言模型问答类网站文本关键词提取道路交通法规

一种基于LDPC的译码方法、装置及电子设备

译码方法拉格朗日 LDPC译码度量译码码字

一种基于强化学习微调的大型语言模型优化方法

站点导航

APP 下载