用于提升大语言模型数学能力的强化学习方法及相关装置

正文

推荐专利

申请号：CN202510952668

申请日期：2025-07-10

公开号：CN120832930A

公开日期：2025-10-24

类型：发明专利

摘要

本发明属于人工智能技术领域，公开了一种用于提升大语言模型数学能力的强化学习方法及相关装置；其中，所述强化学习方法包括：获取待增强大语言模型以及强化学习数据集；采用强化学习对待增强大语言模型进行微调训练，且在微调训练同时应用蒙特卡罗估计对强化学习中产生的回答预测进行过程级别标注，获得微调后大语言模型以及标注数据集；基于标注数据集对过程奖励模型进行训练，获得训练好的过程奖励模型。本发明公开的技术方案，能够捕捉推理过程中存在的细粒度错误，增强了大语言模型的数学能力；另外，能够在强化学习的同时实现数据标注，节约了过程级标注数据的收集成本。

技术关键词

大语言模型强化学习方法蒙特卡罗强化学习系统数学样本更新模型参数表达式非暂态计算机可读存储介质人工智能技术数据获取模块策略处理器答案存储器标签线性标记

系统为您推荐了相关专利信息

一种高产丹系种猪的选育方法

选育方法基因筛选技术基因编辑技术分型技术种猪选育技术

一种基于聚类算法的告警数据分析系统的实现方法

数据分析系统聚类算法 DBSCAN算法关键词日志

一种以作业动作为基础的工时计算方法及系统

作业工位工时计算方法数学计算模型信息更新构建数学模型

一种基于动态图神经网络的大模型知识蒸馏架构与高效训练方法及系统

高效训练方法蒸馏学生大语言模型神经网络架构

基于多模态深度学习的瓦斯预抽采多目标优化决策方法

多模态深度学习优化决策方法深度确定性策略梯度瓦斯抽采系统储层物性参数

用于提升大语言模型数学能力的强化学习方法及相关装置

站点导航

APP 下载